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本 书 是 国外 数据 结构 与 算法 分 析 方 面 的 经 典 教材 ， 使 用 卓越 的 Java 编 程 语言 作为 实现 工具 
讨论 了 数据 结构 (组 织 大 量 数据 的 方法 ) 和 算法 分 析 ( 对 算法 运行 时 间 的 估计 )。 

随 着 计算 机 速度 的 不 断 增加 和 功能 的 日 益 强 大 ， 人 们 对 有 效 编程 和 算法 分 析 的 要 求 也 不 断 
增长 。 本 书 把 算法 分 析 与 最 有 效率 的 Java 程 序 的 开发 有 机 地 结合 起 来 ， 深入 分 析 每 种 算法 ， 内 
ESE 3 AT, HABREF RAE. 





第 2 版 的 特色 如 下 : 
e 全 面 曾 述 新 的 Java 5.0 编 程 语 言 和 Java Collections 库 , 
e 改进 内 部 设计 ， 用 图 和 实例 阐述 算法 的 实施 步骤 。 
@ 第 3 章 对 表 、 栈 和 队列 的 讨论 进行 了 全 面 修 订 。 
e 用 一 章 专门 讨论 摊 还 分 析 和 一 些 高 级 数据 结构 的 实现 。 
e 每 章 末 尾 的 大 量 练习 按照 难 易 程 度 编排 ， 以 增强 对 关键 概念 的 理解 。 
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本 书 是 国外 数据 结构 与 算法 分 析 课 程 的 标准 教材 ， 通 俗 易 懂 地 介绍 了 数据 结构 和 算法 分 
析 ， 除 讨论 一 般 数 据 结构 及 其 实现 外 ， 还 专门 讨论 了 一 些 高 级 数据 结构 及 其 实现 ， 并 在 程序 
代码 中 充分 体现 了 Java 5.0 的 新 特性 。 每 章 末 还 提供 了 大 量 练习 ， 并 根据 难 易 程 度 标记 了 星 
级 ， 便 于 教师 、 学 生 使 用 。 本 书 适合 用 做 高 级 数据 结构 课程 或 研究 生 算 法 分 析 课 程 的 教材 。 

Simplified Chinese edition copyright © 2008 by Pearson Education Asia Limited and China 
Machine Press. 

Original English language title: Data Structures and Algorithm Analysis in Java, Second 
Edition (ISBN 0-321-37013-9) by Mark Allen Weiss , Copyright © 2007. 

All rights reserved. 

Published by arrangement with the original publisher, Pearson Education, Inc., publishing as 
Addison-Wesley. 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ,不仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ;而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真 正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 了 珍藏。 大理 石 纹 理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 电力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 入 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : i 


华章 网 站 : www.hzbook.com 
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联系 电话 : (010) 88379604 
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译 者 & 


计算 机 功能 的 增强 、 速 度 的 提高 和 应 用 的 普及 , 增长 了 人 们 对 实用 算法 分 析 和 高 效 编程 实现 
的 需求 。 在 Jaa 语言 广泛 使 用 的 今天 , 希望 我 们 这 样 一 本 兼顾 普及 和 提高 的 数据 结构 与 算法 分 
析 教 材 能 够 对 广大 读者 有 所 神 益 。 

本 书 为 《Data Structures and Algorithm Analysis in Java》 第 2 版 的 中 译本 。 这 里 , 原著 者 Mark 
Allen Weiss 对 第 1 版 进行 了 全 面 的 修订 , 将 书 中 的 算法 、 技 巧 与 精心 编制 的 高 效 Java 程序 有 机 地 
结合 起 来 , 通过 图 示 和 实例 清楚 地 阐释 对 每 种 算法 续 密 、 严 格 和 深入 的 分 析 。 

应 该 指出 , 书 中 改进 最 大 的 方面 是 用 Java 5.0 对 内 容 所 作 的 全 面 更 新 , 尤其 是 各 章 的 程序 。 
当然 ,以 介绍 Java 基础 为 重要 内 容 的 第 1 章 发 生 显著 变化 则 是 必然 的 。 再 有 , 第 3 章 对 表 、 栈 、 
队列 的 讨论 已 被 全 面 修订 。 第 4 章 也 有 些 相 应 的 变化 , 包括 对 TreeSet 类 和 TreeMap 类 的 讨论 。 
其 他 各 章 或 多 或 少 都 有 些 相关 的 更 新 。 众 所 周知 ,Java 5.0 是 Java 自发 布 以 来 到 目前 为 止 改动 最 
大 的 版 本 , 其 强大 的 新 特性 和 新 功能 使 Java ERE ETEK KER. Ae, 本 书 经 过 Java 5.0 的 
全 面 改进 , 其 意义 是 显而易见 的 。 此 外 , 对 前 1 版 中 发 现 的 错误 , 这 次 第 2 版 均 已 得 到 纠正 。 至 
于 有 关 第 2 版 更 多 的 信息 , 读者 可 从 因特网 特别 是 前 言 中 提 到 的 作者 Weiss 的 网 站 上 查 到 。 

在 本 书 翻译 过 程 中 , 王 永 柿 老师 阅读 了 初稿 的 大 部 分 章节 并 提出 宝贵 的 意见 和 建议 , BRR 
老师 仔细 比较 并 标注 了 原著 第 1 版 和 第 2 版 之 间 的 差别 , 译 者 衷心 感谢 他 们 对 翻译 工作 真诚 的 帮 
助 。 此 外 , 译 者 特别 要 感谢 广大 读者 对 第 1 版 的 深切 关爱 , 并 企盼 着 对 本 书 ( 第 2 版) 进一步 的 批 
评 和 指正 。 


译 者 


Download at http://www.pinSi.com/ 


Dl 


BU 


本 书目 标 


本 书 新 的 Java 版 论述 数据 结构 一 一 组 织 大 量 数据 的 方法 ， 以 及 工法 分 析 一 一 算法 运行 时 间 
的 估计 。 随 着 计算 机 的 速度 越 来 越 快 , 对 于 能 够 处 理 大 量 输 和 数据 的 程序 的 需求 变 得 日 益 迫 切 。 
可 是 , 由 于 在 输入 量 很 大 的 时 候 程序 的 低 效 率 变 得 非常 明显 , 因此 这 又 要 求 对 效率 问题 给 予 更 仔 
细 的 关注 。 通 过 在 实际 编程 之 前 对 算法 的 分 析 , 学 生 可 以 确定 一 个 特定 的 解法 是 否 可 行 。 例 如 ， 
在 本 书 中 学 生 可 查阅 一 些 特定 的 问题 并 看 到 巧妙 的 实现 是 如 何 能 够 把 处 理 大 量 数据 的 时 间 限 制 
从 16 年 减 至 不 到 1 秒 的 。 因 此 , 车 无 运 行 时 间 的 阐释 , 就 不 会 有 算法 和 数据 结构 的 提出 。 在 某 
些 情 况 下 , 对 于 影响 实现 的 运行 时 间 的 一 些微 小 细节 都 需要 认真 探究 。 

一 旦 确定 了 解法 , 接着 就 要 编写 程序 。 随 着 计算 机 功能 的 日 益 强 大 , 它们 必须 解决 的 问题 也 
变 得 更 加 庞大 和 复杂 , 这 就 要 求 我 们 开发 更 加 复杂 的 程序 。 本 书 的 目的 是 在 教授 学 生 良 好 的 程 
序 设 计 技 巧 和 算法 分 析 能 力 的 同时 , 使 得 他 们 也 能 够 开发 出 这 种 极为 有 效 的 程序 。 

本 书 适用 于 高 级 数据 结构 (CS7) 课 程 或 是 第 一 年 研究 生 的 算法 分 析 课 程 。 学 生 应 该 具有 中 等 
程度 的 程序 设计 知识 , 包括 面向 对 象 程序 设计 和 递归 这 样 一 些 内 容 , 此 外 , 还 要 具有 离散 数学 的 
一 些 知识 。 


处 理 方法 


虽然 本 书 的 内 容 大 部 分 都 与 语言 无 关 , 但 是 , 程序 设计 还 是 需要 使 用 某 种 特定 的 语言 。 正 如 
书 名 指出 的 , 我 们 为 本 书 选 择 了 Java. 

Java 是 相对 较 新 的 语言 , 它 常 常用 来 和 C++ 进行 比较 。Java 具有 许多 的 优点 , 编程 人 员 常 
常 把 Java 看 成 是 一 种 比 C++ 更 安全 、 更 具有 可 移植 性 并 且 更 容易 使 用 的 语言 。 因 此 , 这 使 得 它 
成 为 讨论 和 实现 基础 数据 结构 的 一 种 优秀 的 核心 语言 。Java 的 其 他 方面 , 诸如 线程 和 GUI( 图 形 
用 户 界 面 ), 虽然 很 重要 , 但 是 本 书 并 不 需要 , 因此 也 就 不 再 讨论 。 

使 用 Java 和 C++ 对 数据 结构 进行 的 完善 描述 均 在 互联 网 上 提供 了 现成 的 材料 。 我 们 采用 类 
似 的 编码 约定 以 使 得 这 两 种 语言 之 间 的 对 等 性 更 加 明显 。 


本 版 中 最 显著 的 变化 


本 版 (第 2 版 ) 消 除了 一 些 程序 中 的 错误 , 并 对 书 中 的 许多 部 分 进行 了 修订 ， 以 使 曾 述 更 加 清 
晰 。 此 外 : 

。 为 了 体现 Java 5.0 现代 化 的 特色 , 我 们 对 书 中 的 程序 代码 进行 了 必要 的 更 新 。 

。 对 第 3 章 进 行 了 全 面 修改 , 包括 对 标准 ArrayList 类 和 LinkedList 类 (以 及 它们 的 迭代 
器 ) 用 法 的 讨论 , 以 及 对 标准 ArrayList 类 和 LinkedList 类 的 实现 的 讨论 。 

。 第 4 章 也 得 到 了 修订 , 包括 对 TreeSet 类 和 TreeMap 类 的 讨论 , 同时 用 一 个 宽泛 的 实例 并 
述 了 它们 在 有 效 算法 设计 中 的 使 用 。 第 9 章 还 包括 一 个 例子 , 利用 标准 TreeMap 类 来 实 
现 最 短路 径 算 法 。 
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。 第 7 章 包 含 对 一 些 标准 sort 算法 的 讨论 , 包括 对 在 实现 重 载 的 标准 sort 算法 中 所 涉及 的 
一 些 技巧 的 阐释 。 


概述 


第 1 章 包 含 离散 数学 和 递归 的 一 些 复习 材料 。 我 相信 熟练 掌握 递归 的 唯一 办 法 是 反复 不 断 
地 研读 一 些 好 的 用 法 。 因 此 , 除 第 5 章 外 , 递归 遍及 本 书 每 一 章 的 例子 之 中 。 第 1 章 还 介绍 了 一 
些 相关 知识 , 作为 对 基本 Java 的 复习 和 回顾 , 包括 对 Java 5 泛 型 的 讨论 。 

第 2 章 讨论 算法 分 析 。 本 章 阐 述 渐 近 分 析 及 其 主要 缺点 。 提 供 了 许多 例子 , 包括 对 对 数 运行 
时 间 的 深入 解释 。 通 过 直观 地 把 一 些 简 单 递归 程序 转变 成 迭代 程序 而 对 它们 进行 分 析 。 此 外 ， 
还 介绍 了 更 复杂 的 分 治 程 序 , 不 过 有 些 分 析 ( 求 解 递 推 关系 ) 要 推迟 到 第 7 章 再 进行 详细 的 讨论 。 

第 3 章 包括 表 、 栈 和 队列 。 这 一 章 进 行 了 全 面 的 修订 。 现 在 的 新 版 包括 对 Collections API 
ArrayList 类 和 LinkedList 类 的 讨论 , 提供 了 Collections API ArrayList 类 和 LinkedList 类 的 一 
个 重要 子 集 的 若干 实现 。 

第 4 章 讨论 树 , 重点 是 查找 树 , 包括 外 部 查找 树 (B- 树 )。UNIX 文件 系统 和 表达 式 树 是 作为 
例子 来 介绍 的 。 本 章 还 介绍 了 AVL 树 和 伸展 树 。 查 找 树 实现 细节 更 仔细 的 处 理 可 在 第 12 章 找 
到 。 树 的 另外 一 些 内 容 , 如 文件 压缩 和 博弈 树 , 推迟 到 第 10 章 讨 论 。 外 部 介质 上 的 数据 结构 作 
为 几 章 中 的 最 后 论题 来 考虑 。 这 一 版 新 增 的 内 容 有 对 Collections API TreeSet 类 和 TreeMap 类 
的 讨论 , 包括 一 个 重要 的 例子 , 描述 为 求解 一 个 问题 而 使 用 三 种 单独 的 映射 。 

第 5 章 是 相对 较 短 的 一 章 , 主要 讨论 散 列 表 。 这 里 进行 了 某 些 分 析 , 本 章 末 尾 讨 论 了 可 扩 
散 列 。 

第 6 章 是 关于 优先 队列 的 。 二 叉 堆 也 在 这 里 讲授 , 还 有 些 附 加 的 材料 论述 优先 队列 某 些 理 
论 上 有 趣 的 实现 方法 。 斐 波 那 契 堆 在 第 11 章 讨论 , 配对 堆 在 第 12 章 讨论 。 

第 7 章 论 述 排序 。 这 一 章 特别 关注 编程 细节 和 分 析 。 所 有 重要 的 通用 排序 算法 均 在 该 章 进 
行 了 讨论 和 比较 。 此 外 , 还 对 四 种 排序 算法 做 了 详细 的 分 析 , 它们 是 :插入 排序 、 希 尔 排 序 、 堆 排 
序 以 及 快速 排序 。 本 章 末尾 讨论 了 外 部 排序 。 

第 8 章 讨论 不 相交 集 算法 并 证 明 其 运行 时 间 。 这 是 简短 和 且 特 殊 的 一 章 , 如 果 不 讨 论 Kruskal 
算法 则 该 章 可 跳 过 。 

第 9 章 讲授 图 论 算法 。 图 论 算法 的 吸引 力 不 仅 因为 它们 在 实践 中 经 常 发 生 , 而 且 还 因为 它 
们 的 运行 时 间 强 烈 地 依赖 于 数据 结构 的 恰当 使 用 。 实 际 上 , 所 有 标准 算法 都 是 和 相应 的 数据 结 
构 、 伪 代码 以 及 运行 时 间 的 分 析 一 起 介绍 的 。 为 把 这 些 问 题 放 进 一 本 适当 的 教材 中 , 我 们 对 复杂 
性 理论 (包括 NP- 完 全 性 和 不 可 判定 性 ) 进 行 了 简短 的 讨论 。 

第 10 章 通 过 考查 一 般 的 问题 求解 技巧 讨论 算法 设计 。 该 章 通过 大 量 的 实例 而 得 以 强化 。 这 
一 章 及 后 面 各 章 使 用 的 伪 代 码 使 得 学 生 在 理解 例子 时 不 致 被 实现 的 细节 所 困扰 。 

第 11 章 处 理 摊 还 分 析 , 对 来 自 第 4 章 和 第 6 章 的 三 种 数据 结构 以 及 本 章 介绍 的 斐 波 那 契 堆 
进行 了 分 析 。 

第 12 章 讨 论 查 找 树 算 法 、&-d 树 和 配对 堆 。 不 同 于 其 他 各 章 , 本 章 给 出 了 查找 树 和 配对 堆 完 
整 仔细 的 实现 。 材 料 的 安排 使 得 教师 可 以 把 一 些 内 容纳 人 到 其 他 各 章 的 讨论 之 中 。 例 如 , 第 12 
章 中 的 自 项 向 下 红 黑 树 可 以 和 (第 4 章 的 )AVL 树 一 起 讨论 。 

第 1 章 到 第 9 章 为 大 多 数 一 学 期 的 数据 结构 课程 提供 了 足够 的 材料 。 如 果 时 间 人 允许 , 那么 第 
10 章 也 可 以 包括 进来 。 研 究 生 的 算法 分 析 课 程 可 以 使 用 第 7 章 到 第 11 章 的 内 容 。 第 11 章 所 分 
析 的 高 级 数据 结构 在 前 面 各 章 中 可 以 容易 地 查 到 。 第 9 章 里 所 讨论 的 NP- 完 全 性 对 本 书 来 说 太 
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过 简单 ,你 会 发 现 对 NP- 完 全 性 再 做 一 些 额 外 的 工作 以 扩充 本 书 内 容 将 是 有 益 的 。 
练习 


每 章 末尾 提供 的 练习 与 正文 中 所 述 内 容 的 顺序 相 一 致 。 最 后 的 一 些 练习 是 将 一 章 作为 一 个 
整体 来 处 理 而 不 是 针对 特定 的 某 一 节 来 考虑 的 。 难 度 较 大 的 练习 标记 一 个 星 号 , 更 难 的 练习 标 
有 两 个 星 号 。 


参考 文献 


参考 文献 列 于 每 章 的 最 后 。 通 常 ， 这 些 参考 文献 或 者 是 历史 性 质 的 , 代表 着 书 中 材料 的 原始 
来 源 ; 或 者 阐述 对 书 中 给 出 的 结果 的 扩展 和 改进 。 有 些 文献 提供 了 一 些 练习 的 解法 。 


代码 的 获得 


下 面 的 补充 材料 在 www. aw. com/cssupport 对 所 有 读者 公开 : 

。 例子 程序 的 源 代码 

此 外 , 下 述 材 料 仅 提 供给 采用 本 书 作 为 教材 的 教师 。 有 意 者 请 按照 书后 所 附 的 “教学 支持 说 
明 表 "中 的 联系 方式 联络 培 生 教育 出 版 集团 北京 代表 处 。 

* 部 分 练习 的 解答 。 

* 来 自 本 书 的 一 些 附 图 。 
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第 1 章 5| 论 


在 这 一 章 , 我 们 阐述 本 书 的 目的 和 目标 并 简要 复习 离散 数学 以 及 程序 设计 的 一 些 概念 。 我 
们 将 要 

。 看 到 程序 对 于 合理 的 大 量 输入 的 运行 性 能 与 其 在 适量 输入 下 运行 性 能 的 同等 重要 性 。 

。 概括 为 本 书 其 余部 分 所 需要 的 基本 的 数学 基础 。 

。 简要 复习 递归 。 

。 概括 用 于 本 书 的 Java 语言 的 某 些 重要 特点 。 


1.1 本 书 讨论 的 内 容 


设 有 一 组 N 个 数 而 要 确定 其 中 第 & 个 最 大 者 。 我 们 称 之 为 选择 问题 (selection problem), X 
多 数学 习 过 一 两 门 程序 设计 课程 的 学 生 写 一 个 解决 这 种 问题 的 程序 不 会 有 什么 困难 。“ 明 显 的 ” 
解决 方法 是 相当 多 的 。 

该 问题 的 一 种 解法 就 是 将 这 N 个 数 读 进 一 个 数组 中 ,再 通过 某 种 简单 的 算法 ,比如 冒 泡 排 
序 法 ， 以 递减 顺序 将 数组 排序 , 然后 返回 位 置 & 上 的 元 素 。 

稍微 好 一 点 的 算法 可 以 先 把 前 & 个 元 素 读 人 数组 并 (以 递减 的 顺序 ) 对 其 排序 。 接 着 ,将 剩 
下 的 元 素 再 逐个 读 人 。 当 新 元 素 被 读 到 时 , 如果 它 小 于 数组 中 的 第 上 & 个 元 素 则 忽略 之 , 否则 就 将 
其 放 到 数组 中 正确 的 位 置 上 , 同时 将 数组 中 的 一 个 元 素 挤 出 数组 。 当 算法 终止 时 , 位 于 第 个 位 
置 上 的 元 素 作为 答案 返回 。 

这 两 种 算法 编码 都 很 简单 ,建议 读者 试 一 试 。 此 时 我 们 自然 要 问 : 哪个 算法 更 好 ? 哪个 算法 
更 重要 ? 还 是 两 个 算法 都 足够 好 ? 使 用 一 千 万 个 元 素 的 随机 文件 入 = 5 000 000 进行 模拟 将 发 
30, 两 个 算法 在 合理 的 时 间 量 内 均 不 能 结束 ; 每 种 算法 都 需要 计算 机 处 理 若干 天 才能 算 完 (虽然 
最 后 还 是 给 出 了 正确 的 答案 )。 在 第 7 章 将 讨论 另 一 种 算法 , 该 算法 将 在 一 秒 钟 左右 给 出 问题 的 
解 。 因 此 , 虽然 我 们 提出 的 两 个 算法 都 能 算出 结果 , 但 是 它们 不 能 被 认为 是 好 的 算法 , 因为 对 于 
第 三 种 算法 能 够 在 合理 的 时 间 内 处 理 的 输入 数据 量 而 言 , 这 两 种 算法 是 完全 不 切实 际 的 。 

第 二 个 问题 是 解决 一 个 流行 的 字谜 。 输 入 是 由 一 些 字母 构成 的 一 个 二 维 数 组 以 及 一 组 单词 
组 成 。 目 标 是 要 找 出 字谜 中 的 单词 , 这 些 单词 可 能 是 
水 平 、 垂 直 或 沿 对 角 线 上 任何 方向 放置 的 。 作 为 例 
F, 图 1-1 所 示 的 字谜 由 单词 this, two, fat 和 that 组 
成 。 单 词 this 从 第 一 行 第 一 列 的 位 置 即 (1,1) 处 开始 
并 延伸 至 (1,4); 单词 two 从 (1,1) 到 (3,1); fat 从 (4， 
1) 到 (2,3); 而 that 则 从 (4,4) 到 (1,1)。 

现在 至 少 也 有 两 种 直观 的 算法 来 求解 这 个 问题 。 图 1-1 字谜 示例 
对 单词 表 中 的 每 个 单词 , 我们 检查 每 一 个 有 序 三 元 组 
( 行 、 列 、 方 向 ) 验 证 是 否 有 单词 存在 。 这 需要 大 量 嵌 套 的 for 循环 , 但 它 基本 上 是 直观 的 算法 。 

也 可 以 这 样 ， 对 于 每 一 个 尚未 越 出 谜 板 边缘 的 有 序 四 元 组 ( 行 、 列 、 方 向 、 字 符 数 ) 我 们 可 以 
测试 是 否 所 指 的 单词 在 单词 表 中 。 这 也 导致 使 用 大 量 嵌 套 的 for 循环 。 如 果 在 任意 单词 中 的 最 
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大 字符 数 已 知 , 那么 该 算法 有 可 能 节省 一 些 时 间 。 

上 述 两 种 方法 相对 来 说 都 不 难 编码 并 可 求解 通常 发 表 于 杂志 上 的 许多 现实 的 字谜 游戏 。 这 
些 字谜 通常 有 16 行 16 列 以 及 40 个 左右 的 单词 。 然 而 , 假设 我 们 把 字谜 变 成 为 只 给 字谜 板 (puz- 
zle board) 而 单词 表 基本 上 是 一 本 英语 词典 , 则 上 面 提出 的 两 种 解法 均 需 要 相当 长 的 时 间 来 解决 
这 个 问题 , 从 而 这 两 种 方法 都 是 不 可 接受 的 。 不 过 , 这 样 的 问题 还 是 有 可 能 在 数秒 内 解决 的 , K 
至 单词 表 可 以 很 大 。 

在 许多 问题 当中 , 一 个 重要 的 观念 是 : 写 出 一 个 工作 程序 并 不 够 。 如 果 这 个 程序 在 巨大 的 数 
据 集 上 运行 , 那么 运行 时 间 就 变 成 了 重要 的 问题 。 我 们 将 在 本 书 看 到 对 于 大 量 的 输入 如 何 估计 
程序 的 运行 时 间 , 尤其 是 如 何在 尚未 具体 编码 的 情况 下 比较 两 个 程序 的 运行 时 间 。 我 们 还 将 看 
到 彻底 改进 程序 速度 以 及 确定 程序 瓶颈 的 方法 。 这 些 方 法 将 使 我 们 能 够 发 现 需要 我 们 集中 精力 
努力 优化 的 那些 代码 段 。 


1.2 数学 知识 复习 


本 节 列 出 一 些 需 要 记忆 或 是 能 够 推导 出 的 基本 公式 , 并 从 推导 过 程 复 习 基 本 的 证 明 方 法 。 
1.2.1 指数 
XAXB — x^ +B 
x 一 X^- B 
(X*) = XE 
XN + XN =2 hk, 
2N £ 2N = IN+ 1 
1.2.2 对 数 
在 计算 机 科学 中 , 除非 有 特别 的 声明 ,否则 所 有 的 对 数 都 是 以 2 为 底 的 。 
定义 1.1 X*=B 4AM logg4B8- A, 
由 该 定义 可 以 得 到 几 个 方便 的 等 式 。 
定理 1.1 


bg B = ES A;B,C20,AS51, CZI 
证 明 : 
4 X-logcB, Y=logA, — logaB。 此 时 由 对 数 的 定义 , C*=B, CY=A ARA =B 
联合 这 三 个 等 式 则 产生 (C7) = CX = B。 因 此 , X= YZ, 这 意味 着 Z= X/Y , 定理 得 证 。 
定理 1.2 
logAB = logA + logB; A,B>0 
iE AA: 
$ X=logB, Y=logA, 以 及 Z=logAB。 此 时 由 于 假设 默认 的 底 为 2, 2*=A, 2°=B, 及 
= AB, 联合 最 后 的 三 个 等 式 则 有 2*2Y-2^- AB, Wit X+ Y-Z, 这 就 证 明了 该 定理 。 NH 
其 他 一 些 有 用 的 公式 如 下 , 它们 都 能 够 用 类 似 的 方法 推导 。 
logA /B= logA - logB 
log( A?) = BlogA 
logX < X XI BUR ES X 20 成 立 
log 1=0, log 2=1, log 1024 = 10, log 1048576 = 20 
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1.2.3 级 数 
最 容易 记忆 的 公式 是 
3p; = 2N-] 
和 
x i A" —4 
P2" lain ver 
在 第 二 个 公式 由 ,如 果 0<A<1, W 
e$ se ili. 
DA <I A 


M ON 趋 于 co 时 该 和 趋向 于 1/(1 7 A), 这 些 公式 是 “几何 级 数 " 公 式 。 
我 们 可 以 用 下 面 的 方法 推导 关于 > ”Ai:(0 < A < D 的 公式 。 令 S 是 其 和 。 此 时 
S=1+ A+ A?+ A?+A’+ A+ 
于 是 
AS- A + A? * A3 + A* * AŻ + -- 
如 果 我 们 将 这 两 个 方程 相 减 (这 种 运算 只 允许 对 收敛 级 数 进行 ), 等 号 右边 所 有 的 项 相 消 ,只 留 下 
l: 


S- ASx1 
即 
— 
A 
可 以 用 相同 的 方法 计算 2 i2, 它 是 一 个 经 常 出 现 的 和 。 我 们 写成 
4 
s-1«2.3.4434 
用 2 乘 之 得 到 
6 
5-182434 S4 3 $a 
将 这 两 个 方程 相 减 得 到 
S= l4 stats 
因此 , S=2。 


分 析 中 另 一 种 常用 类 型 的 级 数 是 算术 级 数 。 任 何 这 样 的 级 数 都 可 以 从 基本 公式 计算 其 值 。 
Y _ NIN +1) _ N? 
i-i 2 2 


例如 ,为 求 出 和 2+5+8+…+ (3k 一 1), 将 其 改写 为 3(1+2+3+…+k) 一 (1+1+1+…+1)， 
BR, 它 就 是 3k(k+1) 人 2 有。 另 一 种 记忆 的 方法 则 是 将 第 一 项 与 最 后 一 项 相 加 (和 为 3& +1)， 
第 二 项 与 倒数 第 二 项 相 加 (和 也 是 3k + 1), FS. AFA R72 个 这 样 的 数 对 ,因此 总 和 就 是 
A(3k+1)2, 这 与 前 面 的 答案 相同 。 
现在 介绍 下 面 两 个 公式 , 不 过 它们 就 没有 那么 常见 了 。 
DE _ N(N+ DQN+1)N’ 
= 6 3 


N +i 
k — N — 
eee, ee 
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X p= -1 时, 后 一 个 公式 不 成 立 。 此 时 我 们 需要 下 面 的 公式 , 这 个 公式 在 计算 机 科学 中 的 
使 用 要 远 比 在 数学 其 他 科目 中 使 用 得 多 。 数 HN 叫做 调和 数 , 其 和 叫做 调和 和 。 下 面 近似 式 中 的 
误差 趋向 于 y**0.57 721 566, 称 为 欧 拉 常 数 (Euler s constant) « 


Hy = 3 + ~ log.N 
以 下 两 个 公式 只 不 过 是 一 般 的 代数 运算 ; 
> f(N) = NfCN) 


DAD = WG) = WG) 
1.2.4 模 运算 
如 果 N 整除 A 一 B, 那么 就 说 A 5 BN AR, 记 为 AS B(mod N)。 直 观 地 看 , 这 意味 着 
无 论 是 A 还 是 B 被 N AUR. 所 得 余数 都 是 相同 的 。 于 是 , 81=61=1(mod 10)。 如 同等 号 的 情形 
一 样 , 若 A=B(mod N), 则 A+ C=B + C(mod N) 以 及 AD=BD(mod N). 
有 许多 定理 适用 模 运 算 ， 其 中 有 些 特别 需要 用 到 数论 来 证 明 。 我 们 将 尽量 少 使 用 模 运 算 , 这 
样 ,前面 的 一 些 定理 也 就 足够 了 。 
1.2.5 证 明 的 方法 
证 明 数 据 结构 分 析 中 的 结论 的 两 种 最 常用 的 方法 是 归纳 法 证 明和 反 证 法 证 明 ( 偶 尔 也 被 迫 用 
到 只 有 教授 们 才 使 用 的 证 明 )。 证 明 一 个 定理 不 成 立 的 最 好 的 方法 是 举 出 一 个 反例 。 
归纳 法 证 明 
由 归纳 法 进行 的 证 明 有 两 个 标准 的 部 分 。 第 一 步 是 证 明基 准 情形 (base case) ， 就 是 确定 定理 
对 于 某 个 ( 某 些 ) 小 的 (通常 是 退化 的 ) 值 的 正确 性 ; 这 一 步 几 乎 总 是 很 简单 的 。 接 着 , 进行 归纳 假 
设 (inductive hypothesis)。 一 般 说 来 , 它 指 的 是 假设 定理 对 直到 某 个 有 限 数 & 的 所 有 的 情况 都 是 
成 立 的 。 然 后 使 用 这 个 假设 证 明定 理 对 下 一 个 值 (通常 是 上 +1) 也 是 成 立 的 。 至 此 定理 得 证 (在 
是 有 限 的 情形 下 )。 
作为 一 个 例子 , BATE HA SE KARIM, Fo=1,F,=1,F.=2,F3=3,F,=5,°",F, = F,-1+ 
F,.,, 满足 对 i21, 有 F;<(5/3)'( 有 些 定义 规定 Fo=0, 这 只 不 过 将 该 级 数 做 了 一 次 平移 )。 为 
了 证 明 这 个 不 等 式 , 我 们 首先 验证 定理 对 简单 的 情形 成 立 。 容 易 验证 Fi=1<5/3 及 F;72«25/ 
9, 这 就 证 明了 基准 情形 。 假 设 定理 对 于 i=1,2,…, 成立, 这 就 是 归纳 假设 。 为 了 证 明定 理 ， 
我 们 需要 证 明 F,,,« (5/3)* 1 。 根 据 定 义 得 到 
Fia Fy + Fr- 
将 归纳 假设 用 于 等 号 右边 , 得 到 
Faso Ft 
« (3/5) (5/3)**  « (3/5 (573)**! 
= (3/5)(5/3)**! + (9/25) (5/3)**! 


化 简 后 为 
F,,,€ (3/54 9/25) (5/3)! 
= (24/25) (5/3)**! 
— 
这 就 证 明了 这 个 定理 。 


作为 第 二 个 例子 , 我 们 建立 下 面 的 定理 。 
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ER 1.3 

N 3 _ N(N * 1)(2N * 1) 
如 果 N èl, m», 2 = 6 
证 明 : 


用 数学 归纳 法 证 明 。 对 于 基准 情形 , 容易 看 到 , 当 N=1 时 定理 成 立 。 对 于 归纳 假设 , RE 
理 对 1 受过 成立。 我 们 将 在 该 假设 下 证 明定 理 对 于 N + 1 也 是 成 立 的 。 我 们 有 


N*1 


N 
> = 5) S)T(N*1Y 
1 =] 


应 用 归纳 假设 得 到 
Sp 7 N(N+ DOQN+D +(N+1)} 
-(N ep [BID TON+D 
-(N 4 2 HINES 
_ (N+1)(N+2)QN +3) 
6 
因此 
Sia NAI (N*1) À 1120N +1) +1 
rim 6 
定理 得 证 。 a 
通过 反例 证 明 


公式 FF 三 不成立。 证 明 这 个 结论 的 最 容易 的 方法 就 是 计算 Fi =144> 117, 
反 证 法 证 明 

反 证 法 证 明 是 通过 假设 定理 不 成 立 , 然后 证 明 该 假设 导致 某 个 已 知 的 性 质 不 成 立 , 从 而 原 假 
设 是 错误 的 。 一 个 经 典 的 例子 是 证 明 存在 无 穷 多 个 素数 。 为 了 证 明 这 个 结论 , 我 们 假设 定理 不 
成 立 。 于 是 , 存在 某 个 最 大 的 素数 Pio $ Pi,P,,…,P; 是 依 序 排列 的 所 有 素数 并 考虑 

N= PPP; P,+1 

显然 , N 是 比 PP 大 的 数 , 根据 假设 N FARM. Æ, Pi, P:,…, P 都 不 能 整除 N, 因为 除 得 
的 结果 总 有 余数 1。 这 就 产生 一 个 矛盾 ,因为 每 一 个 整数 或 者 是 素数 , 或 者 是 素数 的 乘积 。 因 
Jt, P, 是 最 大 素数 的 原 假设 是 不 成 立 的 , 这 正 意味 着 定理 成 立 。 


1.3 递归 简 论 


我 们 熟悉 的 大 多 数 数学 函数 都 是 由 一 个 简单 公式 来 描述 的 。 例 如 , 我 们 可 以 利用 公式 
C-5(F-32)/9 

将 华氏 温度 转换 成 摄氏 温度 。 有 了 这 个 公式 , 写 一 个 Jaa 方法 就 太 简单 了 。 除 去 程序 中 的 说 明 
和 大 括号 外 , 这 一 行 的 公式 正好 翻译 成 一 行 Java 程序 。 

有 了 时候 数学 函数 以 不 太 标准 的 形式 来 定义 。 例 如 , 我 们 可 以 在 非 负 整 数 集 上 定义 一 个 函数 
f, ERE f(0)=0 且 f(z)=2f(z 一 1)+ xz*。 从 这 个 定义 我 们 看 到 f(1)=1,f(2)=6,f(3)= 
21, 以 及 F4)=58。 当 一 个 函数 用 它 自己 来 定义 时 就 称 为 是 递归 (recursive) 的 。Java 允许 函数 是 
递归 的 .9 | 


〇 ， 对 于 数值 计算 使 用 递归 通常 不 是 个 好 主意 。 我 们 在 解释 基本 概念 时 已 经 说 过 。 
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但 重要 的 是 要 记 住 , Java 提供 的 仅仅 是 遵循 递归 思想 的 一 种 尝试 。 不 是 所 有 的 数学 递归 函 
数 都 能 被 有 效 地 (或 正确 地 ) 由 Java 的 递归 模拟 来 实现 。 上 面 例子 说 的 是 递归 函数 f 应 该 只 用 几 
行 就 能 表示 出 来 , 正如 非 递 归 函 数 一 样 。 图 1-2 指出 了 函数 f 的 递归 实现 。 
public static int f( int x ) 
if( x == 0) 


return 0; 
else 


return 2 * f(x - 1) * x * x; 





图 1-2 一 个 递归 方法 

第 3 行 和 第 4 行 处 理 基 准 情 况 (base case)， 即 此 时 函数 的 值 可 以 直接 算出 而 不 用 求助 递归 。 
正如 f(z)=2f(zx 一 1)+ xz? 车 没有 f(0)=0 这 个 事实 在 数学 上 没有 意义 一 样 ,Java 的 递归 方法 
若 无 基准 情况 也 是 毫 无 意义 的 。 第 6 行 执行 的 是 递归 调用 。 

关于 递归 , 有 几 个 重要 并 且 可 能 会 被 混淆 的 概念 。 一 个 常见 的 问题 是 : 它 是 否 就 是 循环 推理 
(circular logic)? 答案 是 : 虽然 我 们 定义 一 个 方法 用 的 是 这 个 方法 本 身 , 但 是 我 们 并 没有 用 方法 本 
身 定义 该 方法 的 一 个 特定 的 实例 。 换 句 话 说 , 通过 使 用 f(5) 来 得 到 f(5) 的 值 才 是 循环 的 。 通 过 
使 用 f(4) 得 到 f(5) 的 值 不 是 循环 的 ,当然 , 除非 f(4) 的 求 值 又 要 用 到 对 f(5) 的 计算 。 两 个 最 重 
要 的 问题 悉 怕 就 是 如 何 做 和 为 什么 做 的 问题 了 。 如 何 和 为 什么 的 问题 将 在 第 3 章 正 式 解决 。 这 
里 , 我 们 将 给 出 一 个 不 完全 的 描述 。 

实际 上 , 递归 调用 在 处 理 上 与 其 他 调用 没有 什么 不 同 。 如 果 以 参数 4 的 值 调用 函数 fF, 那么 
程序 的 第 6 行 要 求 计算 2 * 1(3) +4*4。 这 样 ， 就 要 执行 一 个 计算 f(3) 的 调用 , 而 这 又 导致 计算 
2* f(2)+3x3。 因 此 , 又 要 执行 男 一 个 计算 f(2) 的 调用 , 而 这 意味 着 必须 求 出 2* f(1) *2*2 
的 值 。 为 此 , 通过 计算 2x* f(0) +1x1 而 得 到 f(1)。 此 时 ，f(0) 必 须 被 赋值 。 由 于 这 属于 基准 
情况 , 因此 我 们 事先 知道 f(0) =0。 从 而 f(1) 的 计算 得 以 完成 , 其 结果 为 1。 然 后 , f(2)、f(3) 以 
及 最 后 F(4) 的 值 都 能 够 计算 出 来 。 跟 踪 挂 起 的 函数 调用 (这 些 调用 已 经 开始 但 是 正 等 待 着 递归 
调用 来 完成 ) 以 及 它们 的 变量 的 记录 工作 都 是 由 计算 机 自动 完成 的 。 然 而 , 重要 的 问题 在 于 , B 
归 调 用 将 反复 进行 直到 基准 情形 出 现 。 例 如 , 计算 f( -1) 的 值 将 导致 调用 f( -2)、f( 一 3) 等 等 。 
由 于 这 将 不 可 能 出 现 基准 情形 , 因此 程序 也 就 不 可 能 算出 答案 。 偶 尔 还 可 能 发 生 更 加 微妙 的 错 
ix, 我 们 将 其 展示 在 图 1-3 中 。 图 1-3 中 程序 的 这 种 错误 是 第 6 行 上 的 bad(1) 定 义 为 bad(1)。 显 
然 , 实际 上 bad(1) 究 竟 是 多 少 , 这 个 定义 给 不 出 任何 线索 。 因 此 , 计算 机 将 会 反复 调用 bad( 1) LÀ 
期 解 出 它 的 值 。 最 后 , 计算 机 夭 记 系统 将 占 满 内 存 空 间 , 程序 崩溃 。 一 般 情形 下 , 我 们 会 说 该 方 
法 对 一 个 特殊 情形 无 效 , 而 在 其 他 情形 是 正确 的 。 但 此 处 这 么 说 则 不 正确 , 因为 bad(2) 调 用 bad 
(1)。 因 此 , bad(2) 也 不 能 求 出 值 来 。 不 仅 如 此 ，bad(3)、bad(4) 和 bad(5) 都 要 调用 bad(2)， 
bad(2) 算 不 出 值 ,它们 的 值 也 就 不 能 求 出。 事实 上 , 除了 0 之 外 , 这 个 程序 对 n 的 任何 非 负 值 都 
无 效 。 对 于 递归 程序 , 不 存在 像 “ 特 殊 情 形 " 这 样 的 情况 。 


public static int bad( int n ) 


if( n == 0) 
return 0; 


se 
return bad n/3*1) *n- 1; 





1-3. 无 终止 递归 方法 
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上 面 的 讨论 导致 递归 的 前 两 个 基本 法 则 : 

1. 基准 情形 (base case)。 必 须 总 要 有 某 些 基 准 的 情形 , 它们 不 用 递归 就 能 求解 。 

2. 不 断 推进 (making progress)。 对 于 那些 要 递归 求解 的 情形 , 递归 调用 必须 总 能 够 朝 着 一 个 
基准 情形 推进 。 

在 本 书 中 我 们 将 用 递归 解决 一 些 问 题 。 作 为 非 数 学 应 用 的 一 个 例子 , 考虑 一 本 大 词典 。 词 
典 中 的 词 都 是 用 其 他 的 词 定义 的 。 当 查 一 个 单词 的 时 候 , 我 们 不 是 总 能 理解 对 该 词 的 解释 , 于 是 
我 们 不 得 不 再 查找 解释 中 的 一 些 词 。 同 样 , 对 这 些 词 中 的 某 些 地 方 我 们 又 不 理解 , 因此 还 要 继续 
这 种 查找 。 因 为 词典 是 有 限 的 , 所 以 实际 上 或 者 我 们 最 终 要 查 到 一 处 ,明白 了 此 处 解释 中 所 有 的 
单词 (从 而 理解 这 里 的 解释 , 并 按照 查找 的 路 径 回 查 其 余 的 解释 ) 或 者 我 们 发 现 这 些 解释 形成 一 个 
循环 , 无 法 理解 其 最 终 含义 , 或 者 在 解释 中 需要 我 们 理解 的 某 个 单词 不 在 这 本 词典 里 。 

我 们 理解 这 些 单词 的 递归 策略 如 下 : 如 果 知 道 一 个 单词 的 含义 , 那么 就 算 我 们 成 功 ; 否则 ， 
就 在 词典 里 查找 这 个 单词 。 如 果 我 们 理解 对 该 词 解释 中 的 所 有 的 单词 , 那么 又 算 我 们 成 功 ; F 
则 , 通过 递归 查找 一 些 我 们 不 认识 的 单词 来 “算出 "对 该 单词 解释 的 含义 。 如 果 词 典 编纂 得 完美 
XB, 那么 这 个 过 程 就 能 够 终止 ; 如 果 其 中 一 个 单词 没有 查 到 或 是 循环 定义 (解释 ), 那么 这 个 过 
程 则 循环 不 定 。 
打印 输出 整数 

设 有 一 个 正 整 数 n 并 希望 把 它 打 印 出 来 。 我 们 的 例 程 的 名 字 为 printout(n)。 假 设 仅 有 的 现 
成 MO 例 程 将 只 处 理 单 个 数字 并 将 其 输出 到 终端 。 我 们 为 这 种 例 程 命名 为 printDigit; 例如 ， 
printDigit(4) 将 输出 4 到 终端 。 

递归 将 为 该 问题 提供 一 个 非常 漂亮 的 解 。 要 打印 76234, 我 们 首先 需要 打印 出 7623, 然后 再 
打印 出 4。 第 二 步 用 语句 printDigit(ns 10) 很 容易 完成 , 但 是 第 一 步 却 不 比 原 问 题 简 单 多 少 。 
它 实际 上 是 同一 个 问题 , 因此 可 以 用 语句 printout(n/10) 递 归 地 解决 它 。 

这 告诉 我 们 如 何 去 解 决 一 般 的 问题 , 不 过 我 们 仍然 需要 确认 程序 不 是 循环 不 定 的 。 由 于 我 
们 尚未 定义 一 个 基准 情况 , 因此 很 清楚 , 我 们 仍然 还 有 些 事情 要 做 。 如 果 0 委 2”<10, 那么 基准 情 
形 就 是 printDigit(n)。 现 在 ,printOut(n) 已 对 每 一 个 从 0 到 9 的 正 整数 定义 ， 而 更 大 的 正 整数 
则 用 较 小 的 正 整数 定义 。 因 此 , 不 存在 循环 的 问题 。 整 个 方法 在 图 1-4 中 指出 。 


public static void printOut( int n ) /* Print nonnegative n */ 


if( n >= 10 ) 
printOut( n / 10 ); 
printDigit( n % 10 ); 





图 1-4 打印 整数 的 递归 例 程 


我 们 没有 努力 去 高 效 地 做 这 件 事 。 我 们 本 可 以 避免 使 用 mod 例 程 ( 它 是 非常 耗 时 的 ), 因为 
n9610— n - [ n/10] * 10,9 
递归 和 归纳 


让 我 们 多 少 严 格 一 些 地 证 明 上 述 递归 的 整数 打印 程序 是 可 行 的 。 为 此 , 我 们 将 使 用 归纳 法 
证 明 。 


O Lzj 是 小 于 或 等 于 x 的 最 大 整数 。 
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定理 1.4 

递归 的 整数 打印 算法 对 n20 是 正确 的 。 

证 明 ( 通 过 对 所 含 数字 的 个 数 , 用 归纳 法 证 明之 ): 

首先 , 如 果 n 只 有 一 位 数字 , 那么 程序 显然 是 正确 的 , 因为 它 只 是 调用 一 次 printDigit, R 
后 , 设 printOut 对 所 有 上 个 或 更 少 位 数 的 数 均 能 正常 工作 。 我 们 知道 上 + 1 位 数字 的 数 可 以 通过 
其 前 & 位 数字 后 跟 一 位 最 低位 数字 来 表示 。 但 是 前 & 位 数字 形成 的 数 恰好 是 | nA10」 ,由 归纳 假 
设 它 能 够 被 正确 地 打印 出 来 , 而 最 后 的 一 位 数字 是 n mod 10, 因此 该 程序 能 够 正确 打印 出 任意 
&+1I 位 数字 的 数 。 于 是 , 根据 归纳 法 , 所 有 的 数 都 能 被 正确 地 打印 出 来 。 Es] 

这 个 证 明 看 起 来 可 能 有 些 奇怪 , 但 它 实 际 上 相当 于 是 算法 的 描述 。 证 明 阐 述 的 是 在 设计 递 
归程 序 时 , 同一 问题 的 所 有 较 小 实例 均 可 以 假设 运行 正确 , 递归 程序 只 需要 把 这 些 较 小 问题 的 解 
(它们 通过 递归 奇迹 般 地 得 到 ) 结 合 起 来 形成 现行 问题 的 解 。 其 数学 根据 则 是 归纳 法 的 证 明 。 由 
此 , 我 们 给 出 递归 的 第 三 个 法 则 : 

设计 法 则 (design rule)。 假 设 所 有 的 递归 调用 都 能 运行 。 

这 是 一 条 重要 的 法 则 , 因为 它 意 味 着 ， 当 设计 递归 程序 时 一 般 没 有 必要 知道 短 记 管理 的 细 
T. 你 不 必 试 图 追踪 大 量 的 递归 调用 。 追 踪 具 体 的 递归 调用 的 序列 常常 是 非常 困难 的 。 当 然 , 在 
许多 情况 下 , 这 正 是 使 用 递归 好 处 的 体现 , 因为 计算 机 能 够 算出 复杂 的 细节 。 

递归 的 主要 问题 是 隐 含 的 憩 记 开销 。 虽 然 这 些 开销 几乎 总 是 合理 的 (因为 递归 程序 不 仅 简 化 
了 算法 设计 而 且 也 有 助 于 给 出 更 加 简洁 的 代码 ), 但 是 递归 绝 不 应 该 作为 简单 for 循环 的 代替 物 。 
我 们 将 在 3.6 节 更 仔细 地 讨论 递归 涉及 的 系统 开销 。 

当 编写 递归 例 程 时 , 关键 是 要 牢记 递归 的 四 条 基本 法 则 : 

1. 基准 情形 。 必 须 总 要 有 某 些 基准 情形 , 它 无 需 递 归 就 能 解 出 。 

2. 不 断 推进 。 对 于 那些 需要 递归 求解 的 情形 , 每 一 次 递归 调用 都 必须 要 使 状况 朝向 一 种 基 
准 情 形 推进 。 

3. 设计 法 则 。 假 设 所 有 的 递归 调用 都 能 运行 。 

4. 合成 效益 法 则 (compound interest rule)。 在 求解 一 个 问题 的 同一 实例 时 , 切 勿 在 不 同 的 递 
归 调 用 中 做 重复 性 的 工作 。 

第 四 条 法 则 (连同 它 的 名 称 一 起 ) 将 在 后 面 的 章节 证 明 是 合理 的 。 使 用 递归 计算 诸如 斐 波 那 
契 数 之 类 简单 数学 函数 的 值 的 想法 一 般 来 说 不 是 一 个 好 主意 , 其 道理 正 是 根据 第 四 条 法 则 。 只 
要 在 头脑 中 记 住 这 些 法 则 , 递归 程序 设计 就 应 该 是 简单 明了 的 。 


1.4 实现 泛 型 特性 构件 pre 一 Java 5 


面向 对 象 的 一 个 重要 目标 是 对 代码 重用 的 支持 。 支 持 这 个 目标 的 一 个 重要 的 机 制 就 是 泛 型 
机 制 (generic mechanism): 如 果 除 去 对 象 的 基本 类 型 外 ,实现 方法 是 相同 的 , 那么 我 们 就 可 以 用 泛 
型 实现 (generic implementation) 来 描述 这 种 基本 的 功能 。 例 如 , 可 以 编写 一 个 方法 , 将 由 一 些 项 组 
成 的 数组 排序 ; 方法 的 远 辑 关系 与 被 排序 的 对 象 的 类 型 无 关 , 此 时 可 以 使 用 泛 型 方法 。 

与 许多 新 的 语言 (例如 C++ , 它 使 用 模板 来 实现 泛 型 编程 ) 不 同 , 在 1.5 版 以 前 , java 并 不 直 
接 支 持 泛 型 实现 , 泛 型 编程 的 实现 是 通过 使 用 继承 的 一 些 基 本 概念 来 完成 的 。 本 节 描 述 在 Java 
中 如 何 使 用 继承 的 基本 原则 来 实现 一 些 泛 型 方法 和 类 。 

Sun 公司 在 2001 年 是 把 对 泛 型 方法 和 类 的 直接 支持 作为 未 来 的 语言 增强 剂 来 宣布 的 。 后 来 ， 
终于 在 2004 年 末 发 表 了 Java 5 并 提供 了 对 泛 型 方法 和 类 的 支持 。 然 而 , 使 用 泛 型 类 需要 理解 
pre~ Java 5 对 泛 型 编程 的 语言 特性 。 因 此 ,对 继承 如 何 用 来 实现 泛 型 程序 的 理解 是 根本 的 关键 ， 
甚至 在 Java 5 中 仍然 如 此 。 | 
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1.4.1 使 用 Object 表示 泛 型 
Java 中 的 基本 思想 就 是 可 以 通过 使 用 像 Object 这 样 适 当 的 超 类 来 实现 泛 型 类 。 在 图 1-5 中 
所 示 的 MemoryCell 类 就 是 这 样 一 个 例子 。 


// MemoryCell class 
// Object read( ) --» Returns the stored value 
// void write( Object x ) --» x is stored 


public class MemoryCeli 
( 
// Public methods 
public Object read( ) { return storedValue; ] 
public void write( Object x ) { storedValue = x; } 


// Private internal data representation 
private Object storedValue; 


) 





1-5 泛 型 MenoryCell 类 (pre-Java 5) 


当 我 们 使 用 这 种 策略 时 ， 有 两 个 细节 必须 要 考虑 。 第 一 个 细节 在 图 1-6 中 阐释 , 它 描述 一 个 
main 方法 ， 该 方法 把 串 “37" 写 到 MemoryCell 对 象 中 , 然后 又 从 MemoryCell 对 象 读 出 。 为 了 访问 
这 种 对 象 的 一 个 特定 方法 ,必须 要 强制 转换 成 正确 的 类 型 。( 当 然 , 在 这 个 例子 中 , 可 以 不 必 进 
行 强制 转换 ,因为 在 程序 的 第 9 行 可 以 调用 tostring( ) 方 法 ,这 种 调用 对 任意 对 象 都 是 能 够 做 
到 的 )。 


public class TestMemoryCell 
{ 
public static void main( String [ ) args ) 
{ 
MemoryCell m = new MemoryCell( ) ; 


m.write( "37" ); 
String val = (String) m.read( ); 
System.out.println( "Contents are: " + val ); 


] 
2 
3 
4 
5 
6 
7 
8 
9 
0 
1 


} 
} 





1-6 ”使 用 泛 型 MemoryCell 类 (pre-Java 5) 


第 二 个 重要 的 细节 是 不 能 使 用 基本 类 型 。 只 有 引用 类 型 能 够 与 Object 相 容 。 这 个 问题 的 标 
准 工作 马上 就 要 讨论 。 
1.4.2 基本 类 型 的 包装 

当 我 们 实现 算法 的 时 候 , 常常 遇 到 语言 定型 问题 ; 我 们 已 有 一 种 类 型 的 对 象 , 可 是 语言 的 语 
法 却 需要 一 种 不 同类 型 的 对 象 。 

这 种 技巧 侦 释 了 包装 类 (wrapper class) 的 基本 主题 。 一 种 典型 的 用 法 是 存储 一 个 基本 的 类 
型 , 并 添加 一 些 这 种 基本 类 型 不 支持 或 不 能 正确 支持 的 操作 。 

在 Java 中 我 们 已 经 看 到 , 虽然 每 一 个 引用 类 型 都 和 Object HA, 但 是 , 8 种 基本 类 型 却 不 
能 。 于 是 , Java 为 这 8 种 基本 类 型 中 的 每 一 种 都 提供 了 一 个 包装 类 。 例 如 ，int 类 型 的 包装 是 In- 
teger。 每 一 个 包装 对 象 都 是 不 可 变 的 (就 是 说 它 的 状态 绝 不 能 改变 ), 它 存储 一 种 当 该 对 象 被 构 


Download at http:// www.pin5i.com/ 


10 £1* 


—— - 一 


建 时 所 设置 的 原 值 , 并 提供 一 种 方法 以 重新 得 到 该 值 。 包 装 类 也 包含 不 少 的 静态 实用 方法 。 
例如 , 图 1-7 说 明 如 何 能 够 使 用 MemoryCell 来 存储 整数 。 


public class WrapperDemo 


public static void main( String [ ] args ) 


MemoryCell m » new MemoryCell( ); 


m.write( new Integer( 37 ) ); 

Integer wrapperVal = (Integer) m.read( ); 

int val = wrapperVal.intValue( ); 
System.out.println( "Contents are: " * val ); 





图 1-7 Integer 包装 类 的 一 种 演示 


1.4.3 使 用 接口 类 型 表示 泛 型 

只 有 在 使 用 Object 类 中 已 有 的 那些 方法 能 够 表示 所 执行 的 操作 的 时 候 , 才能 使 用 Object 作 
为 泛 型 类 型 来 工作 。 

例如 , 考虑 在 由 一 些 项 组 成 的 数组 中 找 出 最 大 项 的 问题 。 基 本 的 代码 是 类 型 无 关 的 , 但 是 它 
的 确 需要 一 种 能 力 来 比较 任意 两 个 对 象 , 并 确定 哪个 是 大 的 , 哪个 是 小 的 。 因 此 , 我 们 不 能 直接 
找 出 Object 的 数组 中 的 最 大 元 素 一 一 我 们 需要 更 多 的 信息 。 最 简单 的 想法 就 是 找 出 Comparable 
的 数组 中 的 最 大 元 。 要 确定 顺序 , 可 以 使 用 compareTo 方法 , 我 们 知道 , 它 对 所 有 的 Comparable 
都 必然 是 现成 可 用 的 。 图 1-8 中 的 代码 做 的 就 是 这 项 工作 , 它 提供 一 种 nain 方法 , 该 方法 能 够 找 
出 String 或 Shape 数组 中 的 最 大 元 。 

现在 , 提出 几 个 忠告 很 重要 。 首 先 , 只 有 实现 Comparable 接口 的 那些 对 象 才能 够 作为 Compa- 
rable 数组 的 元 素 被 传递 。 仅 有 compareTo 方法 但 并 未 宣称 实现 Comparable 接口 的 对 象 不 是 Com- 
parable 的 , 它 不 具有 必需 的 IS-A 关系 。 因 为 我 们 也 许 会 比较 两 个 Shape 的 面积 , 因此 假设 Shape 
实现 Comparable 接口 。 这 个 测试 程序 还 告诉 我 们 ，Circle、Square 和 Rectangle 都 是 Shape 的 
子 类 。 

第 二 ,如果 Comparable 数组 有 两 个 不 相 容 的 对 象 (例如 , 一 个 String 和 一 个 Shape), 那么 
ConpareTo 方法 将 抛 出 异常 ClassCastException。 这 是 我 们 期 望 的 性 质 。 

第 三 , 如 前 所 述 , 基本 类 型 不 能 作为 Comparable 传递 , 但 是 包装 类 则 可 以 , 因为 它们 实现 了 
Comparable 接口 。 

第 四 , 接口 究竟 是 不 是 标准 的 库 接口 倒 不 是 必需 的 。 

最 后 , 这 个 方案 不 是 总 能 够 行 得 通 , 因为 有 时 宣称 一 个 类 实现 所 需 的 接口 是 不 可 能 的 。 例 如 ， 
一 个 类 可 能 是 库 中 的 类 ,而 接口 却 是 用 户 定义 的 接口 。 如 果 一 个 类 是 final 类 , 那么 我 们 就 不 可 能 
扩展 它 以 创建 一 个 新 的 类 。1.6 节 对 这 个 问题 提出 了 另 一 个 解决 方案 ， 即 function ohject。 这 种 函数 
对 象 (function cbject) 也 使 用 一 些 接口 , 它 或 许 是 我 们 在 Java 库 中 所 遇 到 的 核心 论题 之 一 。 
1.4.4 数组 类 型 的 兼容 性 

语言 设计 中 的 困难 之 一 是 如 何 处 理 集合 类 型 的 继承 问题 。 设 Employee IS-A Person, AKA, 
这 是 不 是 也 意味 着 数组 Employee[ ] IS-A Person[ ] 呢 ? 换 句 话说 , 如 果 一 个 例 程 接 受 Person[ ] 作 
ABR, 那么 我 们 能 不 能 把 Enployee[ ] 作 为 参数 来 传递 呢 ? 
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class FindMaxDemo 


** 


* Return max item in arr. 

* Precondition: arr.length » 0 

* 
public static Comparable findMax( Comparable [ ] arr ) 
{ 


Cant nuUuA WHE 


int maxIndex = 0; 


for( int i = 1; i < arr.length; i++ ) 
if( arr[ i ].compareTo( arr[ maxIndex ] ) > 0 ) 
maxIndex * i; 


return arr[ maxIndex ]; 


) 


js 
* Test findMax on Shape and String objects. 
*/ 
public static void main( String [ ] args ) 
{ 
Shape [ ] shl = ( new Circle( 2.0 ), 
new Square( 3.0 ), 
new Rectangle( 3.0, 4.0) }; 


String [ ] stl = ( "Joe", "Bob", "Bill", ."Zeke" }; 


System.out.println( findMax( shl ) ); 
System.out.println( findMax( stl ) ); 
) 
) 





图 1-8 一 般 的 findMax 例 程 , 使 用 Shape 和 String 演示 (pre-Java 5) 


^E—38 , 该 问题 不 值得 一 问 , 似乎 Employee[ ] 就 应 该 是 和 Perscn[ ] 类 型 兼容 的 。 然 而 , 这 个 
问题 却 要 比 想象 的 复杂 。 假 设 除 Employee Hp, 我 们 还 有 Student ISA Person, 并 设 Employee[ ] 
是 和 Person[ ] 类 型 兼容 的 。 此 时 考虑 下 面 两 条 赋值 语句 : 


Person[] arr = new Employee[ 5 ]; // 编译 : arrays are compatible 
arr[ 0 ] = new Student( ... ); // 编译 : Student IS-A Person 


两 句 都 编译 , 而 arr [0] 实 际 上 是 引用 一 个 Employee, 可 是 Student IS-NOT-A Employee, iX HE 
产生 了 类 型 混乱 。 运 行 时 系统 (runtime system) (Java 虚拟 机 一 译 者 注 ) 不 能 抛 出 ClassCastEx- 
ception 异常 ,因为 不 存在 类 型 转换 。 

避免 这 种 问题 的 最 容易 的 方法 是 指定 这 些 数 组 不 是 类 型 兼容 的 。 可 是 , 在 Java 中 数组 却 是 
类 型 兼容 的 。 这 叫做 协 变数 组 类 型 (covariant araay type)。 每 个 数组 都 明了 它 所 人 允许 存储 的 对 象 
的 类 型 。 如 果 将 一 个 不 兼容 的 类 型 插入 到 数组 中 , 那么 虚拟 机 将 抛 出 一 个 ArrayStoreException 
异常 。 


在 较 早 版 本 的 Java 中 是 需要 数组 的 协 变性 的 , 否则 在 图 1-8 的 第 29 行 和 第 30 行 的 调用 将 编 
译 不 了 。 
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1.5 利用 Java 5 泛 性 实现 泛 型 特性 成 分 


Java 5 支持 泛 型 类 , 这 些 类 很 容易 使 用 。 然 而 , 编写 泛 型 类 却 需 要 多 做 一 些 工 作 。 本 节 将 令 
述 编写 泛 型 类 和 泛 型 方法 的 基础 。 我 们 不 打算 涉及 语言 的 所 有 结构 ,那样 将 是 相当 复杂 的 , mE 
有 时 是 很 难处 理 的 。 我 们 将 介绍 用 于 全 书 的 语法 和 习 语 。 

1.5.1 简单 的 泛 型 类 和 接口 

1-9 是 前 面 图 1-5 描述 的 MemoryCell 的 泛 型 版 代码 。 这 里 , 我 们 把 名 字 改 成 了 Gener- 

icMemoryCeli, 因为 两 个 类 都 不 在 包 中 ,所 以 名 字 也 就 不 能 相同 。 


public class GenericMemoryCe11<AnyType> 
( 
public AnyType read( ) 
{ return storedValue; } 


public void write( AnyType x ) 
{ storedValue = x; } 


private AnyType storedValue; 
} 





图 1-9 MemoryCell 类 的 泛 型 实现 


当 指 定 一 个 泛 型 类 时 , 类 的 声明 则 包含 一 个 或 多 个 类 型 参数 ,这 些 参数 被 放 在 类 名 后 面 的 一 
对 尖 括 号 内 。 第 1 行 指 出 ，GenericMemoryCell 有 一 个 类 型 参数 。 在 这 个 例子 中 , 对 类 型 参数 没 
有 明显 的 限制 , 所 以 用 户 可 以 创建 像 GenericMemoryCell« String> 和 GenericMemoryCell < Inte- 
ger> 这 样 的 类 型 , 但 是 不 能 创建 GenericMemoryCell« int > 这 样 的 类 型 。 在 GenericMemoryCell 
类 声明 内 部 , 我 们 可 以 声明 泛 型 类 型 的 域 和 使 用 泛 型 类 型 作为 参数 或 返回 类 型 的 方法 。 例 如 在 
图 1-9 的 第 5 行 , 类 GenericMemoryCell< String> 的 write 方法 需要 一 个 String 类 型 的 参数 。 如 
果 传 递 其 他 参数 那 将 产生 一 个 编译 错误 。 

也 可 以 声明 接口 是 泛 型 的 。 例 如 , 在 Java 5 WRT, Comparable 接口 不 是 泛 型 的 , 而 它 的 con- 
pareTo 方法 需要 一 个 Object 作为 参数 。 于 是 , 传递 到 compareTo 方 法 的 任何 引用 变量 即使 不 是 
一 个 合理 的 类 型 也 都 会 编译 , 而 只 是 在 运行 时 报告 ClassCastException 错误 。 在 Java 5 中 Com 
parable 接口 是 泛 型 的 , 如 图 1-10 所 示 。 例 如 , 现在 String 类 实现 Comparable< String> 并 有 一 
个 compareTo 方法 , 这 个 方法 以 一 个 String 作为 其 参数 。 通 过 使 类 变 成 泛 型 类 , 以 前 只 有 在 运行 
时 才能 报告 的 许多 错误 如 今 变 成 了 编译 时 的 错误 。 


package java.lang; 


public interface Comparable«AnyType» 


public int compareTo( AnyType other ); 





Pd 1-10 Java 5 版 本 的 Comparable 接口 ， 它 是 泛 型 接口 


1.5.2 自动 装 箱 / 拆 箱 

图 1-7 中 的 代码 写 得 很 麻烦 , 因为 使 用 包装 类 需要 在 调用 write 之 前 创建 Integer WR, fA 
后 才能 使 用 intValue 方法 从 Integer 中 提取 int 值 。 在 Java 5 以 前 , 这 是 需要 的 ,因为 如 果 一 个 
int 型 的 量 被 放 到 需要 Integer 对 象 的 地 方 , 那么 编译 将 会 产生 一 个 错误 信息 , 而 如 果 将 一 个 In- 
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teger 对 象 的 结果 赋值 给 一 个 int 型 的 量 , 则 编译 也 将 产生 一 个 错误 信息 。 图 1-7 中 的 代码 准确 
地 反映 出 基本 类 型 和 引用 类 型 之 间 的 区 别 , 但 还 没有 清楚 地 表示 出 程序 员 把 那些 int 存 人 集合 
(collection) 的 意图 。 

Java 5 矫正 了 这 种 情形 。 如 果 一 个 int 型 量 被 传递 到 需要 一 个 Integer 对 象 的 地 方 , HA, 
编译 器 将 在 幕后 插入 一 个 对 Integer 构造 方法 的 调用 。 这 就 叫做 自动 装 箱 。 而 如 果 一 个 Integer 
对 象 被 放 到 需要 int 型 量 的 地 方 , 则 编译 器 将 在 幕后 插入 一 个 对 intValue 方法 的 调用 , 这 就 叫做 
自动 拆 箱 。 对 于 其 他 7 对 基本 类 型 /包装 类 型 , 同样 会 发 生 类 似 的 情形 。 图 1-11 描述 了 自动 装 箱 
和 自动 拆 箱 的 使 用 。 注 意 , 在 GenericMemoryCell 中 引用 的 那些 实体 仍然 是 Integer 对 象 ; 在 
GenericMemoryCell 的 实例 化 中 ，int 不 能 够 代替 Integer. 


class BoxingDemo 


public static void main( String [ ] args ) 


GenericMemoryCell«Integer» m = new GenericMemoryCell«Integer»( ); 


m.write( 37 ); 
int val » m.read( ); 
System.out.println( “Contents are: " + val ); 





图 1-11 自动 装 箱 和 拆 箱 


1.5.3 带 有 限制 的 通配符 

图 1-12 显示 一 个 static 方法 , 该 方法 计算 一 个 Shape 数组 的 总 面积 (假设 Shape 是 含有 area 
方法 的 类 ; 而 Circle 和 Square 则 是 继承 Shape 的 类 )。 假 设 我 们 想 要 重 写 这 个 计算 总 面积 的 方 
法 , 使 得 该 方法 能 够 使 用 Collection< Shape> 这 样 的 参数 。Collection 将 在 第 3 章 描 述 。 当 前 ， 
唯一 重要 的 是 它 能 够 存储 一 些 项 , 而 且 这 些 项 可 以 用 一 个 增强 的 for 循环 来 处 理 。 由 于 是 增强 的 
for 循环 , 因此 代码 是 相同 的 , 最 后 的 结果 如 图 1-13 所 示 。 如 果 传 递 一 个 Collection< Shape» , 
AA, 程序 会 正常 运行 。 可 是 , 要 是 传递 一 个 Collection< Square> 会 发 生 什么 情况 呢 ? 答案 依 
赖 于 是 否 Collection< Square> IS-A Collection< Shape» 。 回 顾 1.4.4 AIM, 用 技术 术语 来 
说 即 是 否 我 们 拥有 协 变性 。 
public static double totalArea( Shape [ ] arr ) 

double total = 0; 

for( Shape s : arr ) 

if( s 1» null ) 
total += s.area( ); . 


return total; 





1 
2 
3 
4 
5 
6 
7 
8 
9 
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~ 


图 1-12 ”Shape[ ] 的 totalArea 方法 


我 们 在 1.4.4 节 提 到 , Java 中 的 数组 是 协 变 的 。 于 是 ,Square[ ] ISA Shape[ ]。 一 方面 , 这 种 
一 致 性 意味 着 ,如 果 数 组 是 协 变 的 , 那么 集合 也 将 是 协 变 的 。 另 一 方面 , 我 们 在 1.4.4 PARA, XX 
组 的 协 变性 导致 代码 得 以 编译 , 但 此 后 会 产生 一 个 运行 时 异常 (一 个 ArrayStoreException)。 因 为 
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使 用 泛 型 的 全 部 原因 就 在 于 产生 编译 器 错误 而 不 是 类 型 不 匹配 的 运行 时 异常 , 所 以 , 泛 型 集合 不 
是 协 变 的 。 因 此 , 我 们 不 能 把 Collection< Square> 作 为 参数 传递 到 图 1-13 中 的 方法 里 去 。 


public static double totalArea( Collection«Shape» arr ) 


double total = 0; 


for( Shape s : arr ) 
1f( s != null ) 
total += s.area( ); 


return total; 


) 





1-13 totalarea 方法 ,如果 传递 一 个 Collection« Square? , , 则 该 方法 不 能 运行 


现在 的 问题 是 , 泛 型 (以 及 泛 型 集合 ) 不 是 协 变 的 (但 有 意义 ), 而 数组 是 协 变 的 。 若 无 附加 的 
语法 , 则 用 户 就 会 避免 使 用 集合 (collection) ,因为 失去 协 变性 使 得 代码 缺少 灵活 性 。 

Java 5 用 通配符 (wildcard) 来 弥补 这 个 不 足 。 通 配 符 用 来 表示 参数 类 型 的 子 类 (或 超 类 )。 图 
1-14 描述 带 有 限制 的 通配符 的 使 用 , 图 中 编写 一 个 将 Collection<T> 作 为 参数 的 方法 tota- 
lArea, 其 中 T IS-A Shape。 因 此 , Collection« Shape> 和 Collection< Square> 都 是 可 以 接受 的 
参数 。 通 配 符 还 可 以 不 带 限制 使 用 (此 时 假设 为 extends Object), 或 不 用 extends 而 用 super( 来 
表示 超 类 而 不 是 子 类 ); 此 外 还 存在 一 些 其 他 的 语法 , 我 们 就 不 在 这 里 讨论 了 。 


public static double totalArea( Collection<? extends Shape» arr ) 
double total = 0; 


for( Shape s : arr ) 


total += s.area( ); 


return total; 


I 
2 
3 
4 
5 
6 if( s != null ) 
7 
8 
9 
0 


) 





图 1-14 用 通配符 修正 后 的 totalArea 方法 , 如 果 传 递 一 个 
Collection< Square> ， 则 方法 能 够 正常 运行 


1.5.4 泛 型 static 方法 

从 某 种 意义 上 说 , 图 1-14 中 的 totalarea 方法 是 泛 型 方法 ,因为 它 能 够 接受 不 同类 型 的 参 
数 。 但 是 , 这 里 没有 特定 类 型 的 参数 表 , 正如 在 GenericMemoryCell 类 的 声明 中 所 做 的 那样 。 有 
时 候 特 定 类 型 很 重要 , 这 或 许 因 为 下 列 的 原因 : 

1. 该 特定 类 型 用 做 返回 类 型 ; 

2. 该 类 型 用 在 多 于 一 个 的 参数 类 型 中 ; 

3. 该 类 型 用 于 声明 一 个 局 部 变量 。 

如 果 是 这 样 , BA, 必须 要 声明 一 种 带 有 若干 类 型 参数 的 显 式 泛 型 方法 。 

例如 , 图 1-15 显示 一 种 泛 型 static 方法 , 该 方法 对 值 x 在 数组 arr 中 进行 一 系列 查找 。 通 
过 使 用 一 种 泛 型 方法 , 代替 使 用 Object 作为 参数 的 非 泛 型 方法 ， 当 在 Shape 对 象 的 数组 中 查找 
Apple 对 象 时 我 们 能 够 得 到 编译 时 错误 。 
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public static «AnyType» boolean contains( AnyType [ ] arr, AnyType x ) 


for( AnyType val : arr ) 
if( x.equals( val ) ) 
return true; 


return false; 





H 1-15 XMH static 方法 搜索 数组 


泛 型 方法 特别 像 是 泛 型 类 , 因为 类 型 参数 表 使 用 相同 的 语法 。 在 泛 型 方法 中 的 类 型 参数 位 
于 返回 类 型 之 前 。 
1.5.5 ”类 型 限界 

假设 我 们 想 要 编写 一 个 findMax 例 程 。 考 虑 图 1-16 中 的 代码 。 由 于 编译 器 不 能 证 明 在 第 6 
行 上 对 compareTo 的 调用 是 合法 的 , 因此 , 程序 不 能 正常 运行 ; 只 有 在 AnyType 是 Comparable 的 
情况 下 才能 保证 compareTo 存在 。 我 们 可 以 使 用 类 型 限界 (ey bound) 解 决 这 个 问题 。 类 型 限界 
在 尖 括 号 内 指定 , 它 指定 参数 类 型 必须 具有 的 性 质 。 一 种 自然 的 想法 是 把 性 质 改写 成 


public static «AnyType extends Comparable» ... 
public static «AnyType» AnyType findMax( AnyType [ ] arr ) 
i int maxIndex = 0; 
for( int i = 1; i < arr.length; i++ ) 
if( arr[ i ].compareTo( arr[ maxIndex ] ) > 0 ) 


maxIndex = i; 


return arr[ maxIndex ]; 


1 
2 
3 
4 
5 
6 
7 
8 
9 
0 


~ 





1-16 i£ M static 方法 查找 一 个 数组 中 的 最 大 元 素 , 该 方法 不 能 正常 运行 


我 们 知道 , 因为 Comparable 接口 如 今 是 泛 型 的 , 所 以 这 种 做 法 很 自然 。 虽 然 这 个 程序 能 够 
被 编译 , 但 是 更 好 的 做 法 却 是 


public static «AnyType extends Comparable<AnyType>> ... 


然而 , 这 个 做 法 还 是 不 能 令 人 满意 。 为 了 看 清 这 个 问题 , 假设 Shape 实现 Comparable« Shape , 
设 Square 继承 Shape, WAY, 我 们 所 知道 的 只 是 Square 实现 Comparable < Shape >, T E, 
Square [S-A Comparable< Shape» , 但 它 IS-NOT-A Comparable< Square? ! 

应 该 说 , AnyType IS-A Comparable<T>, 其 中 , TÆ AnyType 的 父 类 。 由 于 我 们 不 需要 知道 
准确 的 类 型 T, 因此 可 以 使 用 通配符 。 最 后 的 结果 变 成 


public static «AnyType extends Comparable«? super AnyType>> 


图 1-17 显示 findMax 的 实现 。 编 译 器 将 接受 类 型 T 的 数组 ， 只 是 使 得 T 实 现 Comparable< S» 
接口 , 其 中 T IS-A S。 当 然 , 限界 声明 看 起 来 有 些 混乱 。 幸 运 的 是 , 我 们 不 会 再 看 到 任何 比 这 种 
用 语 更 复杂 的 用 语 了 。 
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public static «AnyType extends Comparable«? super AnyType>> 
AnyType findMax( AnyType [ ] arr ) 


int maxIndex = 0; 
for( int i = 1; i < arr.length; i++ ) 
if( arr( i ].compareTo( arr[ maxIndex ] ) > 0 ) 


maxIndex = i; 


return arr[ maxIndex ]; 


1 
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3 
4 
5 
6 
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8 
9 
0 
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] 
] 





1-17 在 一 个 数组 中 找 出 最 大 元 的 泛 型 static 方法 。 以 例 说 明 类 型 参数 的 限界 


1.5.6 ”类 型 擦 除 

泛 型 在 很 大 程度 上 是 Java 语言 中 的 成 分 而 不 是 虚拟 机 中 的 结构 。 泛 型 类 可 以 由 编译 器 通过 
所 谓 的 类 型 掠 除 (type erasure) 过 程 而 转变 成 非 泛 型 类 。 这 样 , 编译 器 就 生成 一 种 与 泛 型 类 同名 的 
原始 类 (raw class), 但 是 类 型 参数 都 被 删 去 了 。 类 型 变量 由 它们 的 类 型 限界 来 代替 ， 当 一 个 具有 
擦 除 返回 类 型 的 泛 型 方法 被 调用 的 时 候 , 一 些 特性 被 自动 地 插入 。 如 果 使 用 一 个 泛 型 类 而 不 带 
类 型 参数 , 那么 使 用 的 是 原始 类 。 

类 型 擦 除 的 一 个 重要 推论 是 , 所 生成 的 代码 与 程序 员 在 泛 型 之 前 所 写 的 代码 并 没有 太 多 的 
差异 , 而 且 事 实 上 运行 的 也 并 不 快 。 其 显著 的 优点 在 于 , 程序 员 不 必 把 一 些 类 型 转换 放 到 代码 
中 , 编译 器 将 进行 重要 的 类 型 检验 。 

1.5.7 ”对 于 泛 型 的 限制 

对 于 泛 型 类 型 有 许多 的 限制 。 由 于 类 型 擦 除 的 原因 , 这 里 列 出 的 每 一 个 限制 都 是 必须 要 遵守 的 。 
基本 类 型 

基本 类 型 不 能 用 做 类 型 参数 。 因 此 ，GenericMemoryCell< int > 是 非法 的 。 我 们 必须 使 用 包 
装 类 。 
instanceof 检测 

instanceof 检测 和 类 型 转换 工作 只 对 原始 类 型 进行 。 在 下 列 代码 中 : 


GenericMemoryCell«Integer» celll = new GenericMemoryCell<Integer>( ); 

celll.write( 4 ); 

Object cell = celll; 

GenericMemoryCell«String» cell2 = (GenericMemoryCell«String») cell; 

String s = cell2.read( ); 
这 里 的 类 型 转换 在 运行 时 是 成 功 的 , 因为 所 有 的 类 型 都 是 GenericMemoryCell。 但 在 最 后 一 行 ， 
由 于 对 read 的 调用 企图 返回 一 个 String 对 象 从 而 产生 一 个 运行 时 错误 。 结 果 , 类 型 转换 将 产生 
一 个 警告 , 而 对 应 的 instanceof 检测 是 非法 的 。 
static 的 语 境 

在 一 个 泛 型 类 中 static 方法 和 static 域 均 不 可 引用 类 的 类 型 变量 , 因为 在 类 型 擦 除 后 类 
型 变量 就 不 存在 了 。 另 外 , 由 于 实际 上 只 存在 一 个 原始 的 类 , 因此 static 域 在 该 类 的 诸 泛 型 实 
例 之 间 是 共享 的 。 


泛 型 类 型 的 实例 化 
不 能 创建 一 个 泛 型 类 型 的 实例 。 如 果 T 是 一 个 类 型 变量 , 则 语句 
T obj = new T( ); // 右边 是 非法 的 
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是 非法 的 。T 由 它 的 限界 代 蔡 , 这 可 能 是 Object( 或 甚至 是 抽象 类 ), 因此 对 new 的 调用 没有 意义 。 
泛 型 数组 对 象 

也 不 能 创建 一 个 泛 型 的 数组 。 如 果 了 是 一 个 类 型 变量 , 则 语句 

T[] arr = new T[ 10]; // 右边 是 非法 的 


是 非法 的 。T 将 由 它 的 限界 代替 , 这 很 可 能 是 Object T, 于 是 (由 类 型 擦 除 产 生 的 ) 对 TL ] 的 类 型 转 
换 将 无 法 进行 , 因为 Object] IS-NOT-A TL ]。 由 于 我 们 不 能 创建 泛 型 对 象 的 数组 , 因此 一 般 说 
来 我 们 必须 创建 一 个 擦 除 类 型 的 数组 , 然后 使 用 类 型 转换 。 这 种 类 型 转换 将 产生 一 个 关于 未 检 
验 的 类 型 转换 的 编译 警告 。 
参数 化 类 型 的 数组 

参数 化 类 型 的 数组 的 实例 化 是 非法 的 。 考 虑 下 列 代码 : 


GenericMemoryCell«String» [ ] arrl = new GenericMemoryCell<String>[ 10 ]; 
GenericMemoryCell«Double» cell = new GenericMemoryCell«Double»( ); cell.write( 4.5 ); 
Object [ ] arr2 = arr1; 

arr2[ 0 ] = cell; 

String s = arrl[ 0 ].read( ); 

正常 情况 下 , 我 们 认为 第 4 行 的 赋值 会 生成 一 个 ArrayStoreException, 因为 赋值 的 类 型 有 错误 。 
可 是 , 在 类 型 擦 除 之 后 , 数组 的 类 型 为 GenericMemoryCell[ ] 而 加 到 数组 中 的 对 象 也 是 Gener- 
icMemoryCell, 因此 不 存在 ArrayStoreException 异常 。 于 是 , 该 段 代 码 没 有 类 型 转换 , CRAH 
在 第 5 行 产 生 一 个 ClassCastException 异常 , 这 正 是 泛 型 应 该 避免 的 情况 。 


1.6 项 数 对 象 


在 1.5 节 我 们 指出 如 何 编写 泛 型 算法 。 例 如 , 图 1-16 中 的 泛 型 方法 可 以 用 于 找 出 一 个 数组 
中 的 最 大 项 。 

然而 , 这 种 泛 型 方法 有 一 个 重要 的 局 限 : 它 只 对 实现 Comparable 接口 的 对 象 有 效 , 因为 它 使 
用 compareTo 作为 所 有 比较 决策 的 基础 。 在 许多 情形 下 , 这 种 处 理 方式 是 不 可 行 的 。 例 如 ,尽管 
假设 Rectangle 类 实现 Comparable 接口 有 些 过 分 , 但 即使 实现 了 该 接口 , 它 所 具有 的 compareTo 
方法 恐怕 还 不 是 我 们 想 要 的 方法 。 例 如 , 给 定 一 个 2x 10 的 矩形 和 一 个 5Sxs 的 矩形 , 哪个 是 更 
大 的 矩形 呢 ? 答案 伙 怕 依赖 于 我 们 是 使 用 面积 还 是 使 用 长 度 来 决定 。 或 者 ， 如 果 我 们 试图 通过 
一 个 开口 构造 该 矩形 , 那么 或 许 较 大 的 矩形 就 是 具有 较 大 最 小 周 长 的 矩形 。 作 为 第 二 个 例子 , 在 
一 个 字符 串 的 数组 中 如 果 想 要 找 出 最 大 的 串 ( 即 字典 序 排 在 最 后 的 串 ), 默认 的 compareTo 不 忽略 
字符 的 大 小 写 , 则 “ZEBRA”" 按 字典 序 排 在 “alligator" 之 前 , 这 可 能 不 是 我 们 想 要 的 。 

上 述 这 些 情形 的 解决 方案 是 重 写 findMax, 使 它 接受 两 个 参数 ; 一 个 是 对 象 的 数组 , 另 一 个 
是 比较 函数 , 该 函数 解释 如 何 决定 两 个 对 象 中 哪个 大 哪个 小 。 实 际 上 , 这 些 对 象 不 再 知道 如 何 比 
较 它 们 自己 ; 这 些 信息 从 数组 的 对 象 中 完全 去 除了 。 

一 种 将 函数 作为 参数 传递 的 独创 方法 是 注意 到 对 象 既 包含 数据 也 包含 方法 ,于 是 我 们 可 以 
定义 一 个 没有 数据 而 只 有 一 个 方法 的 类 , 并 传递 该 类 的 一 个 实例 。 事 实 上 , 一 个 函数 通过 将 其 放 
在 一 个 对 象 内 部 而 被 传递 。 这 样 的 对 象 通常 叫做 函数 对 象 (funtion object) 。 

-图 1-18 显示 孙 数 对 象 想法 的 最 简单 的 实现 。findMax 的 第 二 个 参数 是 Comparator 类 型 的 对 
象 。 接 口 Comparator 在 java. util 中 指定 并 包含 一 个 compare 方法 。 这 个 接口 在 图 1-19 中 指出 。 

实现 接口 Comparator< AnyType> 类 型 的 任何 类 都 必须 要 有 一 个 叫做 compare 的 方法 , BIT 
法 有 两 个 泛 型 类 型 (AnyType) 的 参数 并 返回 一 个 int WASH, 遵守 和 compareTo 相同 的 一 般 约 定 。 


To oA U 一 
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因此 , 在 图 1-18 中 的 第 9 行 对 compare 的 调用 可 以 用 来 比较 数组 的 项 。 第 4 行 的 带 有 限制 的 通 配 
符 用 来 表示 如 果 查 找 数组 中 的 最 大 的 项 , 那么 该 comparator 必须 知道 如 何 比较 这 些 项 , 或 者 这 
些 项 的 超 类 型 的 那些 对 象 。 我 们 可 以 在 第 26 行 看 到 , 为 了 使 用 这 种 版 本 的 findMax，findMax iÑ 
过 传递 一 个 String 数组 以 及 一 个 实现 comparator< String> 的 对 象 而 被 调用 。 这 个 对 象 属于 Ca- 
seInsensitiveCompare 类 型 , 它 是 我 们 编写 的 一 个 类 。 


// Generic findMax, with a function object. 

// Precondition: a.size( ) > 0. 

public static <AnyType> 

AnyType findMax( AnyType [ ] arr, Comparator<? super AnyType> cmp ) 
{ 


int maxlndex = 0; 


for( int i = 1; i « arr.size( ); i++ ) 
if( cmp.compare( arr{ i ], arr[ maxIndex ] ) > 0 ) 
maxIndex = i; 


Wo 00 (0 Usa Wh o 


return arr[ maxIndex ]; 


} 


class CaselnsensitiveCompare implements Comparator<String> 
{ 
public int compare( String Ihs, String rhs ) 
{ return lhs.compareTolgnoreCase( rhs ); } 


} 


class Testprogram 
{ 
public static void main( String [ ] args ) 
{ | 
String [ ] arr = { "ZEBRA", "alligator", "crocodile" }; 
System.out.printIn( findMax( arr, new CaseInsensitiveCompare( ) ) ) 





图 1-18. 利用 一 个 函数 对 象 作为 第 2 个 参数 传递 给 £indMax; 输出 ZEBRA 


package java.util; 


public interface Comparator<AnyType> 
( 


int compare( AnyType lhs, AnyType rhs ); 





A 1-19 Comparator 接口 


在 第 4 章 我 们 将 给 出 关于 一 个 类 的 例子 , 这 个 类 需要 将 它 存 储 的 项 排序 。 我 们 将 利用 Com- 
parable 编写 大 部 分 的 代码 , 并 指出 其 中 需要 使 用 函数 对 象 的 改动 部 分 。 在 本 书 的 其 他 地 方 , 我 
们 将 避免 函数 对 象 的 细节 以 使 得 代码 尽 可 能 地 简单 ,我 们 知道 以 后 将 函数 对 象 添加 进去 并 不 
困难 。 
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小 结 


本 章 为 该 书 的 其 余部 分 创建 一 个 平台 。 面 对 大 量 的 输入 , 一 种 算法 所 花费 的 时 间 将 是 评判 
决策 好 坏 的 重要 标准 (当然 , 正确 性 是 最 重要 的 )。 速 度 是 相对 的 。 对 于 一 个 问题 在 一 台 机 器 上 
速度 是 快 的 ,， 有 可 能 对 另外 一 个 问题 或 在 一 台 不 同 的 机 器 上 就 变 成 速度 是 慢 的 。 我 们 将 从 下 一 
章 开始 处 理 这 些 问题 , 并 且 要 用 到 本 章 讨 论 过 的 数学 来 建立 一 个 正式 的 模型 。 


练习 


1.1 编写 一 个 程序 解决 选择 问题 。 令 &= NA。 画 出 表格 显示 程序 对 于 N 种 不 同 的 值 的 运行 
时 间 。 

1.2 ”编写 一 个 程序 求解 字迹 游戏 问题 。 

1.3 ”只 使 用 处 理 I/O 的 printDigit 方法 , 编写 一 种 方法 以 输出 任意 double 型 量 ( 可 以 是 负 
的 )。 

1.4 CARAKAN 


finclude filename 


的 语句 , 它 将 filename AFH RAG A Bl include 语句 处 。include BAA VRE; 换 句 
话说 , 文件 filename 本 身 还 可 以 包含 include 语句 , 但 是 显然 一 个 文件 在 任何 链接 中 都 不 
能 包含 它 自 己 。 编 写 一 个 程序 , 使 它 读 人 被 一 些 include 语句 修饰 的 文件 并 且 输 出 这 个 
文件 。 

1.5 ”编写 一 种 递归 方法 , 它 返 回 数 N 的 二 进 制 表示 中 1 的 个 数 。 利 用 这 样 的 事实 : 如 果 N 
是 奇数 , 那么 其 1 的 个 数 等 于 N72 的 二 进 制 表示 中 1 的 个 数 加 1。 

1.6 ”编写 带 有 下 列 声明 的 例 程 : 
public void permute( String str ); 
private void permute( char [ 1 str, int low, int high ); 
第 一 个 例 程 是 个 驱动 程序 , 它 调用 第 二 个 例 程 并 显示 String str 中 的 字符 的 所 有 排列 。 
如 果 str 是 "abc", 那么 输出 的 串 则 是 abc, acb, bac, bea, cab 和 cba。 第 二 个 例 程 使 用 
递归 。 

1.7 ”证 明 下 列 公式 : 
a. log X<X 对 所 有 的 XX>0 成 立 。 
b. log( A)? = BlogA 

1.8 HA FIKA: 
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“1.10 2'9(mod 5) 是 多 少 ? 
1.11 令 所 是 在 1.2 节 中 定义 的 斐 波 那 契 数 。 证 明 下 列 各 式 ; 


e 
a. 2;H = fy -2 
i=1 


b.FNv< 难 ,其 中 %=(1+V5) 
“Cc. 给 出 FN 准确 的 封闭 形式 的 表达 式 。 
1.12 证 明 下 列 公式 : 


N 
a. >) (2i - 1) = N? 
i=l 


b. i = (Xy 


1.13 设计 一 个 泛 型 类 Collection, 它 存储 Object 对 象 的 集合 (在 数组 中 ), 以 及 该 集合 的 当前 
大 小 。 提 供 public 方法 isEmpty, makeEmpty, insert, remove 和 isPresent。 方 法 isPre- 
sent(x) 当 且 仅 当 在 该 集合 中 存在 (由 equals 定义 ) 等 于 x 的 一 个 Object 时 返回 true, 

1.14 设计 一 个 泛 型 类 OrderedCollection, 它 存 储 Comparable 的 对 象 的 集合 (在 数组 中 ) 以 及 
该 集合 的 当前 大 小 。 提 供 public 方法 isEmpty, makeEmpty, insert, remove, findMin 和 
findMax。findMin 和 findMax 分 别 返 回 该 集合 中 最 小 的 和 最 大 的 Comparable 对 象 的 引用 


(如 果 该 集合 为 空 , 则 返回 null), 


1.15 定义 一 个 Rectangle 类, 该 类 提供 getLength 和 getwidth 方 法。 利用 图 1-18 中 的 find- 
Max 例 程 编写 一 种 main 方法 , 该 方法 创建 一 个 Rectangle 数组 并 首先 找 出 依 面积 最 大 的 


Rectangle 对 象 , 然后 找 出 依 周 长 最 大 的 Rectangle 对 象 。 
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第 2 章 算法 分 析 


算法 (algorithm) 是 为 求解 一 个 问题 需要 遵循 的 、 被 清楚 指定 的 简单 指令 的 集合 。 对 于 一 个 问 
题 , 一 旦 某 种 算法 给 定 并 且 ( 以 某 种 方式 ) 被 确定 是 正确 的 , 那么 重要 的 一 步 就 是 确定 该 算法 将 需 
要 多 少 诸如 时 间或 空间 等 资源 量 的 问题 。 如 果 一 个 问题 的 求解 算法 竟然 需要 长 达 一 年 时 间 , 那 
么 这 种 算法 就 很 难 能 有 什么 用 处 。 同 样 , 一 个 需要 若干 个 GB(gigabyte) 的 内 存 的 算法 在 当前 的 大 
多 数 机 器 上 也 是 无 法 使 用 的 。 

在 这 一 章 , 我 们 将 讨论 : 

。 如 何 估计 一 个 程序 所 需要 的 时 间 。 

« 如 何 将 一 个 程序 的 运行 时 间 从 天 或 年 降低 到 秒 甚至 更 少 。 

。 粗心 使 用 递归 的 后 果 。 

。 将 一 个 数 自 乘 得 到 其 寡 ,， 以 及 计算 两 个 数 的 最 大 公 因 数 的 非常 有 效 的 算法 。 


2.1 数学 基础 


一 般 说 来 ,估计 算法 资源 消耗 所 需 的 分 析 是 一 个 理论 问题 , 因此 需要 一 套 正式 的 系统 架构 。 
我 们 先 从 某 些 数 学 定义 开始 。 

本 书 将 使 用 下 列 四 个 定义 ; 

定义 2.1 如 果 存 在 正常 数 c 和 no HEY Ne no BE T(N)Scf(N), 则 记 为 T(N)= O(f 
(N))。 

定义 2.2 如果 存在 正常 数 c 和 no 使 得 当 NEn E T(N) 宇 cg (NN), 则 记 为 T(N)=QN(g 
(N))。 l 

定义 2.3 T(N)=B(h(N)) 当 且 仅 当 T(N)= O(h(N)) 和 T(N)=Q(h(N))。 

定义 2.4 如 果 对 每 一 正常 数 c 都 存在 常数 no 使 得 当 NI ng HE TON) <cp(N), W TON) = 
o(p(N))。 有 了 时 也 可 以 说 , WIR T(N) = OC p(N)) B. T(N) 关 B(p(N)), W T(N)= ol(p(N))。 

这 些 定义 的 目的 是 要 在 函数 间 建 立 一 种 相对 的 级 别 。 给 定 两 个 函数 , 通常 存在 一 些 点 , 在 这 
些 点 上 一 个 函数 的 值 小 于 另 一 个 函数 的 值 , 因此 , 一 般 地 宣称 , 比如 说 FCN) X gCND , 是 没有 什 
么 意义 的 。 于 是 , 我 们 比较 它们 的 相对 增长 率 (relative rate of growth)。 当 将 相对 增长 率 应 用 到 算 
法 分 析 时 , 我 们 将 会 明白 为 什么 它 是 重要 的 度量 。 

虽然 对 于 较 小 的 N 值 1 000N EEN? K, 但 N? 以 更 快 的 速度 增长 , 因此 N? 最 终 将 是 更 大 
的 函数 。 在 这 种 情况 下 ，N = 1 000 是 转折 点 。 第 一 个 定义 是 说 , 最 后 总 会 存在 某 个 点 no WEA 
后 c*f(N) 总 是 至 少 与 T(N) 一 样 大 , 从 而 若 忽略 常数 因子, 则 f(N) 至 少 与 T(N) 一 样 大 。 在 
我 们 的 例子 中 ，T(N)=1000N, fA(N)= NN?,no=1000 而 c=1。 我 们 也 可 以 让 no=10 而 c= 
100。 因 此 , 可 以 说 1 000N = OCN?) (N 平方 级 )。 这 种 记 法 称 为 大 O 标记 法 。 人 们 常常 不 说 
Wistswa 级 的 ”， 而 是 说 “大 Oversees m 

如 果 用 传统 的 不 等 式 来 计算 增长 率 , 那么 第 一 个 定义 是 说 T(N) 的 增长 率 小 于 或 等 于 FON) 
的 增长 率 。 第 二 个 定义 T(N)=Q(g(N))( 念 成 “omega”) 是 说 T(N) 的 增长 率 大 于 或 等 于 g(N) 
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的 增长 率 。 第 三 个 定义 T(N)= B(h(N))( 念 成 “theta”) 是 说 T(NN) 的 增长 率 等 于 h(N) 的 增长 
率 。 最 后 一 个 定义 TUN) = o(p(N))( 念 成 “小 o") 说 的 则 是 T(N) 的 增长 率 小 于 p(NN) 的 增长 
率 。 它 不 同 于 大 O, 因为 大 O 包含 增长 率 相 同 的 可 能 性 。 

要 证 明 某 个 函数 T(N) = O(f(N)), 通常 不 是 形式 地 使 用 这 些 定义 , 而 是 使 用 一 些 已 知 的 
结果 。 一 般 来 说 , 这 就 意味 着 证 明 (或 确定 假设 不 成 立 ) 是 非常 简单 的 计算 而 不 应 涉及 微 积 分 ， 除 
非 遇 到 特殊 的 情况 (不 可 能 在 算法 分 析 中 发 生 )。 

X T(N)=OCfCN) it, 我 们 是 在 保证 函数 T(N) 是 在 以 不 快 于 f(N) 的 速度 增长 ; 因此 
FON) T(N) 的 一 个 上 界 (upper bound)。 这 意味 着 F(N) = Q(T(N)), 于 是 我 们 说 T(N) 是 
f(N) 的 一 个 下 界 (lower bound). 

作为 一 个 例子 ，N3 比 N? 增长 快 , 因此 我 们 可 以 说 N?- O(N3) 或 N3=Q(N?)。f(N)=N’ 
和 g(N) -2N? 以 相同 的 速率 增长 , 从 而 f(N)= Ol(g(N)) 和 f(N)=Q(g(N)) 都 是 正确 的 。 当 
两 个 函数 以 相同 的 速率 增长 时 , 是 否 需 要 使 用 记号 @( ) 表 示 可 能 依赖 于 具体 的 上 下 文 。 直 观 地 
说 , 如 果 g(N)=2N2 那么 g(N)=O(CN4),g(N)=O(CN) 和 8g(N)=O(N) 从 技术 上 看 都 是 
成 立 的 , 但 最 后 一 个 是 最 佳 选择 。 写 法 g(N) = 6B(N?) 不 仅 表示 g(N)= O(N”*) 而 且 还 表示 结果 
尽 可 能 地 好 (严密 )。 

我 们 需要 掌握 的 重要 结论 为 : 

法 则 1: 

如 果 T,(N)  OCF(ND) H T2(N)  OCgCND)) , 那么 

(a) T4(N) + T2(N) = OCFCN) + g(N))( 直 观 地 和 非 正 式 地 可 以 写成 max O(f(N))， 
O(g(N)))). 

(b) T,(N) * T2(N) = O(F(N) * g(N))o 

法 则 2: 

MR T(N) 是 一 个 次 多 项 式 , 则 T(N)= O(N). 

法 则 3: 

对 任意 常数 ,logkN = O(N)。 它 告诉 我 们 对 数 增长 得 非常 缓慢 。 

这 些 信息 足以 按照 增长 率 对 大 部 分 常见 的 函数 进行 分 类 ( 见 图 2-1)。 

有 几 点 需要 注意 。 首 先 , 将 常数 或 低 阶 项 放 进 大 O 是 非常 





坏 的 习惯 。 不 要 写成 T(N) = O(2N2) 或 T(N) = O(N2+ N). T 
在 这 两 种 情形 下 , 正确 的 形式 是 T(N) = O(N2)。 这 就 是 说 ，| lae 对 数 
在 需要 大 O 表示 的 任何 分 析 中 ,各 种 简化 都 是 可 能 发 生 的 。 低 | N ”对 数 平方 的 
阶 项 一 般 可 以 被 忽略 , 而 常数 也 可 以 弃 掉 。 此 时 ,要 求 的 精度 线性 的 
是 很 粗糙 的 。 g 

第 二 , 我 们 总 能 够 通过 计算 极限 imw -= FON) /g (N) KH 
定 两 个 函数 /( N) 和 g( NN) 的 相对 增长 率 , 必要 的 时 候 可 以 使 用 — 
洛 必 达 法 则 9。 该 极限 可 以 有 四 种 可 能 的 值 

。 极 限 是 0: 这 意味 着 (IN) =o(g(N))。 — 


。 极限 是 c750: 这 意味 着 f(N)= 8B@(g(N))。 


Q 洛 必 达 法 则 (L ‘Hopital 's rule) 说 的 是 , 若 limy -wf(N)= œH limy-.og(N) =o, W limy.. f N)/g(N) = 
limw-=r(N)Mg (N), ifi f (NA g (NRA f(N) 和 和 g(N) 的 导数 。 
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。 极限 是 co : 这 意味 着 g(N)=o(f(N))。 

。 极限 摆动 : 二 者 无 关 ( 在 本 书 中 将 不 会 发 生 这 种 情形 )。 

使 用 这 种 方法 几乎 总 能 够 算出 相对 增长 率 , 不 过 有 些 复杂 化 。 通 常 ， 两 个 国 数 FOND RI 
g(N) 间 的 关系 用 简单 的 代数 方法 就 能 得 到 。 例 如 , 如 果 f(N)= Nlog N)fl g(N) 9 N^, 那么 
为 了 确定 FONDO g(NN) 哪 个 增长 得 更 快 , 实际 上 就 是 确定 logN 和 N95 哪个 增长 更 快 。 这 与 确 
定 log ^N 和 NN 哪个 增长 更 快 是 一 样 的 , 而 后 者 是 个 简单 的 问题 , 因为 我 们 已 经 知道 , N 的 增长 要 
RF log 的 任意 的 寡 。 因 此 ，g(N) 的 增长 快 于 f(N) 的 增长 。 

另外 , 在 风格 上 还 应 注意 : 不 要 写成 FON)SOCQgUND)), 因为 定义 已 经 隐 舍 有 不 等 式 了 。 写 
成 /(N) 宇 O(g(N)) 是 错误 的 , 它 没 有 意义 。 

作为 所 执行 的 典型 类 型 分 析 的 例子 , 考虑 在 互连网 上 下 载 文件 的 问题 。 设 有 初始 3s 的 延迟 
(来 建立 连接 ), 此 后 下 载 以 1.5K(B)/s 的 速度 进行 。 可 以 推出 , 如 果 文 件 为 N 个 KB, ABA FR 
时 间 由 公式 T(N) = N/1.5+3 表示 。 这 是 一 个 线性 函数 (linear function). HR, 下 载 一 个 1 500 K 
的 文件 所 用 时 间 (1 003 s) 近 似 (但 不 是 精确 ) 地 为 下 载 750 K 文件 所 用 时 间 (503 s) 的 两 倍 。 这 是 典 
型 的 线性 函数 。 还 要 注意 , 如 果 连 接 的 速度 快 两 倍 , 那么 两 种 时 间 都 要 减少 , 但 1500 K 文件 的 
下 载 仍然 花费 大 约 下 载 750K 文件 的 时 间 的 两 倍 。 这 是 线性 时 间 算 法 的 典型 特点 , 这 就 是 为 什么 
我 们 写 T(N)= O(N) 而 忽略 常数 因子 的 原因 。( 虽 然 使 用 大 9 会 更 精确 , 但 是 一 般 给 出 的 是 大 
ORR.) 

还 要 看 到 , 这 种 行为 不 是 对 所 有 的 算法 都 成 立 。 对 于 1.1 节 描 述 的 第 一 个 选择 算法 , 运行 时 
间 由 执行 一 次 排序 所 花费 的 时 间 来 控制 。 对 诸如 所 提出 的 冒 泡 排 序 这 样 的 简单 排序 算法 ， 当 输 
入 量 增加 到 两 倍 的 时 候 , 则 对 大 量 输 入 的 运行 时 间 增 加 到 4 倍 。 这 是 因为 这 些 算法 不 是 线性 的 ， 
我 们 将 看 到 ， 当 讨论 排序 时 , 普通 的 排序 算法 是 OCNT) , 或 叫做 二 次 的 。 


2.2 模型 


为 了 在 正式 的 构架 中 分 析 算 法 , 我 们 需要 一 个 计算 模型 。 我 们 的 模型 基本 上 是 一 台 标准 的 
计算 机 , 在 机 器 中 指令 被 顺序 地 执行 。 该 模型 有 一 个 标准 的 简单 指令 系统 , 如 加 法 、 乘 法 、 比 较 
和 赋值 等 。 但 不 同 于 实际 计算 机 情况 的 是 , 模型 机 做 任 一 件 简单 的 工作 都 恰好 花费 一 个 时 间 单 
位 。 为 了 合理 起 见 , 我 们 将 假设 模型 像 一 台 现 代 计 算 机 那样 有 固定 大 小 (比如 32 位 ) 的 整数 并 且 
不 存在 如 矩阵 求 逆 或 排序 这 种 想像 的 操作 , 它们 显然 不 能 在 一 个 时 间 单 位 内 完成 。 我 们 还 假设 
模型 机 有 无 限 的 内 存 。 

显然 , 这 个 模型 有 些 缺 点 。 很 明显 , 在 现实 生活 中 不 是 所 有 的 运算 都 恰好 花费 相同 的 时 间 。 
特别 在 我 们 的 模型 中 , 一 次 磁盘 读 人 按 一 次 加 法 记 时 , 虽然 加 法 一 般 要 快 几 个 数量 级 。 还 有 , 由 
于 假设 有 无 限 的 内 存 , 我 们 再 不 用 担心 缺 页 中 断 , .而 它 可 能 是 个 实际 问题 , 特别 是 对 一 些 高 效 的 
算法 。 


2.3 要 分 析 的 问题 


通常 ,要 分 析 的 最 重要 的 资源 就 是 运行 时 间 。 有 几 个 因素 影响 着 程序 的 运行 时 间 。 有 些 因 
素 ( 如 所 使 用 的 编译 器 和 计算 机 ) 显 然 超出 了 任何 理论 模型 的 范畴 , 因此 , 虽然 它们 是 重要 的 , 但 
是 我 们 在 这 里 还 是 不 能 考虑 它们 。 剩 下 的 主要 因素 则 是 所 使 用 的 算法 以 及 对 该 算法 的 输入 。 

典型 的 情形 是 , 输入 的 大 小 是 主要 的 考虑 方面 。 我 们 定义 两 个 函数 Te(N) 和 Ts(N) ,分 
别 为 算法 对 于 输入 量 N 所 花费 的 平均 运行 时 间 和 最 坏 情况 的 运行 时 间 。 显 然 ，T,w (NN) 三 Tw 
(NN)。 如 果 存 在 多 于 一 个 的 输入 , 那么 这 些 函 数 可 以 有 多 于 一 个 的 变量 。 
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偶尔 也 分 析 一 个 算法 最 好 情形 的 性 能 。 不 过 , 通常 这 没有 什么 重要 意义 ,因为 它 不 代表 典型 
的 行为 。 平 均 情形 性 能 常常 反映 典型 的 行为 ,而 最 坏 情形 的 性 能 则 代表 对 任何 可 能 输入 的 性 能 
的 一 种 保证 。 还 要 注意 , 虽然 在 这 一 章 我 们 分 析 的 是 Java 程序 , 但 所 得 到 的 界 实际 上 是 算法 的 界 
而 不 是 程序 的 界 。 程 序 是 算法 以 一 种 特殊 编程 语言 的 实现 , 程序 设计 语言 的 细节 几乎 总 是 不 影 
响 大 O 的 答案 。 如 果 一 个 程序 比 算法 分 析 提出 的 速度 慢 得 多 , 那么 可 能 存在 低 效 率 的 实现 。 这 
在 类 似 C++ 的 语言 中 很 普遍 ， 比 如 , 数组 可 能 当 作 整 体 而 被 漫不经心 地 拷贝 ,而 不 是 由 引用 来 
传递 。 不 管 怎么 说 , 这 在 Java 中 也 可 能 出 现 ; 在 12.7 节 的 最 后 两 段 有 一 个 极其 巧妙 的 例子 来 说 
明 这 个 问题 。 因 此 , 在 后 面 各 章 我 们 将 分 析 算法 而 不 是 分 析 程序 。 

一 般 说 来 , 若 无 相反 的 指定 , 则 所 需要 的 量 是 最 坏 情况 的 运行 时 间 。 其 原因 之 一 是 它 对 所 有 
的 输入 提供 了 一 个 界限 , 包括 特别 坏 的 输入 ,而 平均 情况 分 析 不 提供 这 样 的 界 。 另 一 个 原因 是 平 
均 情况 的 界 计算 起 来 通常 要 困难 得 多 。 在 某 些 情况 下 ,“ 平 均 " 的 定义 可 能 影响 分 析 的 结果 。( 例 
如 , 什么 是 下 述 问题 的 平均 输入 ?) 

作为 一 个 例子 , 我 们 将 在 下 一 节 考 虑 下 述 问题 : 

最 大 子 序列 和 问题 

给 定 ( 可 能 有 负 的 ) 整数 A, A,…, An R DT) As 的 最 大 值 .( 为 方便 起 见 , 如 果 所 有 整数 均 
为 负数 , 则 最 大 子 序列 和 为 0)。 

例如 : 对 于 输入 一 2,11, -4,13, 75, - 2, 答案 为 20( 从 Az 到 Ay). 

这 个 问题 之 所 以 有 吸引 力 , 主要 是 因为 存在 求解 它 的 很 多 算法 ,而 这 些 算法 的 性 能 又 差异 很 
大 。 我 们 将 讨论 求解 该 问题 的 四 种 算法 。 这 四 种 算法 在 某 台 计算 机 上 (究竟 是 哪 一 台 具 体 的 计算 
机 并 不 重要 ) 的 运行 时 间 如 图 2-2 所 示 。 


输入 大 小 
3 
ON’) O(N?)  O(NlogN) 


N=10 0.000 009 0.000 004 0.000 006 


N= 100 0.002 580 0.000 109 0.000 045 
N=1000 2.281 013 0.010 203 0.000 485 
N= 10 000 NA 1.2329 0.005 712 
N — 100 000 NA 135 0.064 618 





图 2-2 计算 最 大 于 序列 和 的 几 种 算法 的 运行 时 间 ( 秒 ) 


在 表 中 有 几 个 重要 的 情况 值得 注意 。 对 于 小 量 的 输入 , KARA RI se, 因此 如 
果 只 是 小 量 输 入 的 情形 ,那么 花费 大 量 的 努力 去 设计 聪明 的 算法 恐怕 就 太 不 值得 了 。 另 一 方面 ， 
近来 对 于 重 写 那些 不 再 合理 的 基于 小 输入 量 假 设 而 在 五 年 以 前 编写 的 程序 确实 存在 巨大 的 市 场 。 
现在 看 来 , 这 些 程序 太 慢 了 ,因为 它们 用 的 是 一 些 低劣 的 算法 。 对 于 大 量 的 输入 , 算法 4 显然 是 
最 好 的 选择 (虽然 算法 3 也 是 可 用 的 )。 

AX, 表 中 所 给 出 的 时 间 不 包括 读 人 数据 所 需要 的 时 间 。 对 于 算法 4, 仅仅 从 磁盘 读 人 数据 
所 用 的 时 间 很 可 能 在 数量 级 上 比 求解 上 述 问题 所 需要 的 时 间 还 要 大 。 这 是 许多 有 效 算法 的 典型 
特点 。 数 据 的 读 人 一 般 是 个 瓶颈 ; 一 旦 数据 读 人 , 问题 就 会 迅速 解决 。 但 是 , 对 于 低 效 率 的 算法 
情况 就 不 同 了 , 它 必然 要 占用 大 量 的 计算 机 资源 。 因 此 只 要 可 能 , 使 得 算法 足够 有 效 而 不 至 成 为 
问题 的 瓶颈 是 非常 重要 的 。 

图 2-3 指出 这 四 种 算法 运行 时 间 的 增长 率 。 尽 管 该 图 只 包含 N 从 10 到 100 的 值 , 但 是 相对 
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增长 率 还 是 很 明显 的 。 虽 然 OC NlogN) 算 法 的 图 看 起 来 是 线性 的 , 但 是 用 直 尺 的 边 ( 或 是 一 张 
纸 ) 容 易 验证 它 并 不 是 直线 。 虽 然 O(N) 算 法 的 图 看 似 直 线 , 但 这 只 是 因为 对 于 小 的 N 值 其 中 的 
常数 项 大 于 线性 项 。 图 2-4 显示 了 对 于 更 大 值 的 性 能 。 该 图 明显 地 表明 , 对 于 即使 是 适度 大 小 的 
输入 量 低 效 算法 依然 是 多 么 的 无 用 。 


— — 


运行 时 间 





0— 110 30 30 40 30 60 70 80 90 100 0 1000 2000 3000 4000 5000 6000 7000 00 600010000 
输入 大 小 {NN) 输入 大 小 (N) 
图 2-3 各 种 计算 最 大 子 序列 和 图 2-4 各 种 计算 最 大 子 序列 和 的 
算法 (N 和 时 间 之 间 ) 的 图 算法 (N 和 时 间 之 间 ) 图 


2.4 运行 时 间 计 算 


有 几 种 方法 估计 一 个 程序 的 运行 时 间 。 前 面 的 表 是 凭 经 验 得 到 的 。 如 果 认 为 两 个 程序 花费 
大 致 相同 的 时 间 , 要 确定 哪个 程序 更 快 的 最 好 方法 很 可 能 就 是 将 它们 编码 并 运行 ! 

一 般 地 , 存在 几 种 算法 思想 , 而 我 们 总 愿意 尽早 除去 那些 不 好 的 算法 思想 , 因此 , 通常 需要 
分 析 算 法 。 不 仅 如 此 , 进行 分 析 的 能 力 常 常 提供 对 于 设计 有 效 算法 的 洞察 能 力 。 一 般 说 来 , 分析 
还 能 准确 地 确定 瓶颈 , 这 些 地 方 值得 仔细 编码 。 

为 了 简化 分 析 , 我 们 将 采纳 如 下 的 约定 : 不 存在 特定 的 时 间 单 位 。 因 此 , 我 们 抛弃 一 些 前 导 
的 常数 。 我 们 还 将 抛弃 低 阶 项 ,从 而 要 做 的 就 是 计算 大 O 运行 时 间 。 由 于 大 O 是 一 个 上 界 , A 
此 我 们 必须 仔细 , 绝 不 要 低估 程序 的 运行 时 间 。 实 际 上 , 分 析 的 结果 为 程序 在 一 定 的 时 间 范 围 内 
能 够 终止 运行 提供 了 保障 。 程 序 可 能 提前 结束 , 但 绝 不 可 能 错 后 。 

2.4.1 一 个 简单 的 例子 


这 里 是 计算 >)，,i 的 一 个 简单 的 程序 片段 : 


public static int sum( int n ) 


{ 
int partialSum; 


] partialSum = 0; 

2 for( int i = 1; i <= n; i++ ) 

3 partialSum += i * i * i; 

4 return partialSum; l 

} . 

对 这 个 程序 段 的 分 析 是 简单 的 。 所 有 的 声明 均 不 计时 间 。 第 1 行 和 第 4 行 各 占 一 个 时 间 单 
元 。 第 3 行 每 执行 一 次 占用 4 个 时 间 单 元 (两 次 乘法 , 一 次 加 法 和 一 次 赋值 ), 而 执行 N 次 共 占 
用 4N 个 时 间 单 元 。 第 2 行 在 初始 化 i. 测试 ISSN 和 对 i 的 自 增 运算 隐 含 着 开销 。 所 有 这 些 的 
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总 开销 是 初始 化 1 个 单元 时 间 , 所 有 的 测试 为 N+ 1 个 单元 时 间 , 而 所 有 的 自 增 运算 为 N 个 单元 
时 间 , 共 2N +2 个 时 间 单 元 。 我 们 忽略 调用 方法 和 返回 值 的 开销 , 得 到 总 量 是 6N+4 个 时 间 单 
元 。 因 此 , 我 们 说 该 方法 是 O(N)。 

如 果 每 次 分 析 一 个 程序 都 要 演示 所 有 这 些 工作 , 那么 这 项 任务 很 快 就 会 变 成 不 可 行 的 负担 。 
幸运 的 是 , 由 于 我 们 有 了 大 O 的 结果 , 因此 就 存在 许多 可 以 采取 的 捷径 并 且 不 影响 最 后 的 结果 。 
例如 , 第 3 行 (每 次 执行 时 ) 显 然 是 O(1) 语 句 , 因此 精确 计算 它 究 竟 是 2、3 还 是 4 个 时 间 单 元 是 
AR; 这 无 关 紧 要 。 第 1 行 与 for 循环 相 比 显然 是 不 重要 的 ， 所 以 在 这 里 花费 时 间 也 是 不 明智 
的 。 这 使 我 们 得 到 若干 一 般 法 则 。 

2.4.2 一 般 法 则 

法 则 1 一 一 for 循环 

一 个 for 循环 的 运行 时 间 至 多 是 该 for 循环 内 部 那些 语句 (包括 测试 ) 的 运行 时 间 乘 以 迭代 
的 次 数 。 

法 则 2 一 一 嵌 套 的 for 循环 

从 里 向 外 分 析 这 些 循环 。 在 一 组 伐 套 循环 内 部 的 一 条 语句 总 的 运行 时 间 为 该 语句 的 运行 时 
间 乘 以 该 组 所 有 的 for 循环 的 大 小 的 乘积 。 

例如 ,下 列 程序 片段 为 O(N”): 

for( i = 0; i< n; i++ ) 

fort J = 0; 3 <:03: Je) 
k++; 

法 则 3 一 一 顺序 语句 

将 各 个 语句 的 运行 时 间 求 和 即 可 (这 意味 着 , 其 中 的 最 大 值 就 是 所 得 的 运行 时 间 ; 见 2.1 * 
中 的 法 则 1(a))。 

例如 , 下 面 的 程序 片段 先是 花费 ON), 接着 是 OCN?), 因此 总 量 也 是 O(N’): 

for( 1 = 0; i < n; i++ ) 

af i] = 0; 
for{ i = 0; i «m; i+) 
for( j = 0; j < n; j++) 
a[i] +alj]+i+tj; 

法 则 4 if/else 语句 

对 于 程序 片段 

if( condition ) 

$1 
else 
$2 

— if/else 语句 的 运行 时 间 从 不 超过 判断 的 运行 时 间 再 加 上 S1 和 S2 中 运行 时 间 长 者 的 
总 的 运行 时 间 。 

显然 在 某 些 情形 下 这 么 估计 有 些 过 头 , 但 决 不 会 估计 过 低 。 

其 他 的 法 则 都 是 显然 的 , 但 是 , 分 析 的 基本 策略 是 从 内 部 (或 最 深层 部 分 ) 向 外 展开 工作 的 。 
如 果 有 方法 调用 , 那么 要 首先 分 析 这 些 调 用 。 如 果 有 递归 过 程 , 那么 存在 几 种 选择 。 若 递归 实际 
上 只 是 被 薄 面 纱 遮 住 的 for 循环 , 则 分 析 通 常 是 很 简单 的 。 例 如 , 下 面 的 方法 实际 上 就 是 一 个 简 
单 的 循环 从 而 其 运行 时 间 为 OCN): 
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public static long factorial( int n ) 


| if( n <= 1) 
return 1; 
else 
return n * factorial( n - 1 ); 

} 

实际 上 这 个 例子 对 递归 的 使 用 并 不 好 。 当 递归 被 正常 使 用 时 , 将 其 转换 成 一 个 循环 结构 是 
相当 困难 的 。 在 这 种 情况 下 , 分 析 将 涉及 求解 一 个 递 推 关系 。 为 了 观察 到 这 种 可 能 发 生 的 情形 ， 
考虑 下 列 程序 , 实际 上 它 对 递归 使 用 的 效率 低 得 令 人 惊 这 。 

public static long fib{ int n ) 
] if( n <= 1) 
2 return 1; 
else 
3 return fib( n - 1) + fib( n - 2); 
} 
初 看 起 来 , 该 程序 似乎 对 递归 的 使 用 非常 聪明 。 可 是 , 如 果 将 程序 编码 并 在 N 值 为 40 左右 时 运 
行 ,那么 这 个 程序 让 人 感到 效率 低 得 吓人 。 分 析 是 十 分 简单 的 。 令 TUN) AVA ER fib(n) 的 
运行 时 间 。 如 果 N=0 或 N=1, 则 运行 时 间 是 某 个 常数 值 , 即 第 1 行 上 做 判断 以 及 返回 所 用 的 
时 间 。 因 为 常数 并 不 重要 , 所 以 我 们 可 以 说 T(0)= T(1)=1。 对 于 NN 的 其 他 值 的 运行 时 间 则 相 
对 于 基准 情形 的 运行 时 间 来 度量 。 若 N>2, 则 执行 该 方法 的 时 间 是 第 1 行 上 的 常数 工作 加 上 第 
3 行 上 的 工作 。 第 3 行 由 一 次 加 法 和 两 次 方法 调用 组 成 。 由 于 方法 调用 不 是 简单 的 运算 ,因此 必 
须 用 它们 自己 来 分 析 它 们 。 第 一 次 方法 调用 是 fib(n- 1)， 从 而 按照 工 的 定义 它 需要 T(N-1) 
个 时 间 音 元。 类似 的 论证 指出 , 第 二 次 方法 调用 需要 TON - 2) 个 时 间 单 元 。 此 时 总 的 时 间 需 求 
为 TIN-1l)+TIN-2)+2, 其 中 2 指 的 是 第 1 行 上 的 工作 加 上 第 3 行 上 的 加 法 。 于 是 对 于 N 
>2, 有 下 列 关 于 fib(n) 的 运行 时 间 公 式 : 
T(N)= T(N-1)* T(N-2)*2 

但 是 fib( N) 2 fib(N - 1) * fib(N - 2), 因此 由 归纳 法 容易 证 明 T(N) Z fib(N), 1E 1.2.5 47 
我 们 证 明 过 fib (N) (5/3) , 类 似 的 计算 可 以 证 明 ( 对 于 N 94) fib( N)z (372), 从 而 这 个 程 
序 的 运行 时 间 以 指数 的 速度 增长 。 这 大 致 是 最 坏 的 情况 。 通 过 保留 一 个 简单 的 数组 并 使 用 一 个 
for 循环 , 运行 时 间 可 以 显著 降低 。 

这 个 程序 之 所 以 运行 缓慢 , 是 因为 存在 大 量 多 余 的 工作 要 做 , 违反 了 在 1.3 节 中 叙述 的 递归 
的 第 四 条 主要 法 则 (合成 效益 法 则 )。 注 意 , 在 第 3 行 上 的 第 一 次 调用 即 fib(n- 1) 实际 上 在 某 处 
计算 fib(n- 2)。 这 个 信息 被 抛弃 而 在 第 3 行 上 的 第 二 次 调用 时 又 重新 计算 了 一 遍 。 抛 弃 的 信息 
量 递 归 地 合成 起 来 并 导致 巨大 的 运行 时 间 。 这 或 许 是 格言 计算 任何 事情 不 要 超过 一 次 ”的 最 好 
的 实例 , 但 它 不 应 使 你 被 吓 得 远离 递归 而 不 敢 使 用 。 本 书 中 将 随处 看 到 递归 的 杰出 使 用 。 
2.4.8 最 大 子 序列 和 问题 的 求解 

现在 我 们 将 要 叙述 四 个 算法 来 求解 早先 提出 的 最 大 子 序 列 和 问题 。 第 一 个 算法 如 图 2-5 所 示 ， 
它 只 是 穷 举 式 地 尝试 所 有 的 可 能 。for 循环 中 的 循环 变量 反映 了 Java 中 数组 从 0 开始 而 不 是 从 1 FF 
始 这 样 一 个 事实 。 还 有 , 本 算法 并 不 计算 实际 的 子 序列 ; 实际 的 计算 还 要 添加 一 些 额外 的 代码 。 

该 算法 肯定 会 正确 运行 (这 用 不 着 花 太 多 的 时 间 去 证 明 )。 运 行 时 间 为 OCN?), 这 完全 取决 
于 第 13 行 和 第 14 £1, 它们 由 一 个 含 于 三 重 嵌 套 for 循环 中 的 O(1) 语 句 组 成 。 第 8 行 上 的 循环 
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大 小 为 N。 


/** 
* Cubic maximum contíguous subsequence sum algorithm, 
*/ 
public static int maxSubSuml( int [ ] a ) 
( 


int maxSum = 0; 


Con Ono WH — 


for( int i = 0; i < a.length; i++ ) 
for( int j * i; j « a.length; j++ ) 


{ 
int thisSum = 0; 


for( int k = i; k <= j; k++ ) 
thisSum += a[ k ]; 


if( thisSum » maxSum ) 
maxSum = thisSum; 


} 


return maxSum; 


! 





图 2-5 算法 1 


第 2 个 循环 大 小 为 N-i, 它 可 能 要 小 , 但 也 可 能 是 No 我们 必须 假设 最 坏 的 情况 , 而 这 可 
能 会 使 得 最 终 的 界 有 些 大 。 第 3 个 循环 的 大 小 为 j- iti 我们 也 要 假设 它 的 大 小 为 N。 因 此 总 
BUS O(1I* NNN-N)2 O( ND), 第 6 行 总 共 的 开销 只 是 OO), 而 语句 16 和 17 也 只 不 过 总 共 开 
销 OCN?), 因为 它们 只 是 两 层 循环 内 部 的 简单 表达 式 。 

事实 上 , 考虑 到 这 些 循环 的 实际 大 小 , 更 精确 的 分 析 指 出 答案 是 8( 入 ), 而 我 们 上 面 的 估计 
高 6 倍 (不 过 这 并 无 大 碍 , 因为 常数 不 影响 数量 级 ) 。 一 般 说 来 , 在 这 类 问题 中 上 述 结 论 是 正确 的 。 


精确 的 分 析 由 和 》)，。》)”， 2),_,1 得 到 , 该 和 "指出 程序 的 第 14 行 被 执行 多 少 次 。 使 用 1.2.3 
节 中 的 公式 可 以 对 该 和 从 内 到 外 求 值 , 特 别 地 , 我 们 将 用 到 前 N 个 整数 求 和 以 及 前 N 个 平方 数 求 
和 的 公式 。 首 先 有 


接着 , 得 到 


N-I : : 
SG itt — 


这 个 和 是 对 前 N- i 个 整数 求 和 而 计算 得 出 的 。 为 完成 全 部 计算 , 我 们 有 
Y4 (N-i a4). - Sh (We N= 4 8) 
2j iEDU te xm LEDIN +2 


15a- (N+) Xit (N+ 3N+2) > 
i 2 =i 2 i=l 


_ 1 N(N+1)QN 41) | 3\N(N +1) , N?+3N+42 
— 6 (N*3) + 


> N 


N? € 3N? +2N 
6 
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我 们 可 以 通过 撤除 一 个 for 循环 来 避免 三 次 的 运行 时 间 。 不 过 这 不 总 是 可 能 的 , 在 这 种 情况 
下 算法 中 出 现 大 量 不 必要 的 计算 ,纠正 这 种 低 效率 的 改进 算法 可 以 通过 观察 >/_ A, = A, + 
> 站 A, 而 看 出 , 因此 算法 1 中 第 13 行 和 第 14 行 上 的 计算 过 分 地 耗费 了 。 图 2-6 给 出 了 一 种 改进 
的 算法 。 算 法 2 显然 是 OCN?) ; 对 它 的 分 析 甚 至 比 前 面 的 分 析 还 简单 。 


** 

* Quadratic maximum contiguous subsequence sum algorithm. 
ui 

public static int maxSubSum2( int [] a ) 

( 


int maxSum = 0; 


for( int i = 0; i « a.length; i++ ) 
{ 


XO 00 ^4 AU AW ho — 


int thisSum = 0; 
for( int j = i; j < a.length; j++ ) 


thisSum += a j ]; 


if( thisSum > maxSum } 
maxSum = thisSum; 
} 
} 


return maxSum; 





图 2-6 算法 2 


对 这 个 问题 有 一 个 递归 和 相对 复杂 的 O(N logN) 解 法 , 我 们 现在 就 来 描述 它 。 要 是 真 的 没 
出 现 O(N)( 线 性 的 ) 解 法 , 这 个 算法 就 会 是 体现 递归 威力 的 极 好 的 范例 了 。 该 方法 采用 一 种 “分 
治 (divide-and-conquer)" 策 略 。 其 想法 是 把 问题 分 成 两 个 大 致 相等 的 子 问 题 , 然后 递归 地 对 它们 求 
解 , 这 是 “分 ”的 部 分 。“ 治 "阶段 将 两 个 子 问题 的 解 修补 到 一 起 并 可 能 再 做 些 少 量 的 附加 工作 ,最 
后 得 到 整个 问题 的 解 。 

在 我 们 的 例子 中 , 最 大 子 序列 和 可 能 在 三 处 出 现 。 或 者 整个 出 现在 输入 数据 的 左 半 部 , 或 者 
整个 出 现在 右 半 部 , 或 者 跨越 输入 数据 的 中 部 从 而 位 于 左右 两 半 部 分 之 中 。 前 两 种 情况 可 以 递 
归 求解 。 第 三 种 情况 的 最 大 和 可 以 通过 求 出 前 半 部 分 (包含 前 半 部 分 最 后 一 个 元 素 ) 的 最 大 和 以 
及 后 半 部 分 (包含 后 半 部 分 第 一 个 元 素 ) 的 最 大 和 而 得 到 。 此 时 将 这 两 个 和 相 加 。 作 为 一 个 例子 ， 
考虑 下 列 输 人 : 





其 中 前 半 部 分 的 最 大 子 序 列 和 为 6( 从 元 素 A, 到 Ai) 而 后 半 部 分 的 最 大 子 序列 和 为 8( 从 元 素 A, 
到 A7)。 


前 半 部 分 包含 其 最 后 一 个 元 素 的 最 大 和 是 4( 从 元 素 A, 到 AL), 而 后 半 部 分 包含 其 第 一 个 元 
素 的 最 大 和 是 7( 从 元 素 A; 到 A). A, 横 跨 这 两 部 分 且 通 过 中 间 的 最 大 和 为 4+7= 11( 从 元 
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X A, 到 Aj). 


我 们 看 到 , 在 形成 本 例 中 的 最 大 和 子 序列 的 三 种 方式 中 , 最 好 的 方式 是 包含 两 部 分 的 元 素 。 
于 是 , 答案 为 11。 图 2-7 提出 了 这 种 策略 的 一 种 实现 手段 。 


wom 0 A Ww NH 





yee 
* Recursive maximum contiguous subsequence sum algorithm, 
* Finds maximum sum in subarray spanning a[left..right]. 
* Does not attempt to maintain actual best sequence. 
"y 
private static int maxSumRec( int [ ] a, int left, int right ) 
{ 
if( left == right ) // Base case 
if( al left] > 0) 
return a[ left ]; 
else 
return 0; 


int center = ( left + right ) / 2; 
int maxLeftSum = maxSumRec( a, left, center ); 
int maxRightSum = maxSumRec( a, center + 1, right ); 


int maxLeftBorderSum = 0, leftBorderSum = 0; 
for( int i = center; i >= left; i-- ) 
{ 
leftBorderSum += a[ i ]; 
if( leftBorderSum » maxLeftBorderSum ) 
maxLeftBorderSum = leftBorderSum; 


) 


int maxRightBorderSum = 0, rightBorderSum = 0; 
for( int i = center + 1; i <= right; i++ ) 
{ 
rightBorderSum += a[ i ]; 
if( rightBorderSum » maxRightBorderSum ) 
maxRightBorderSum = rightBorderSum; 


return max3( maxLeftSum, maxRightSum, 
maxLeftBorderSum + maxRightBorderSum ); 


f** 
* Driver for divide-and-conquer maximum contiguous 
* subsequence sum algorithm. 
MN 
public static int maxSubSum3( int [] a ) 
{ 


return maxSumRec( a, 0, a.length - 1 ); 


} 


图 2-7 算法 3 
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有 必要 对 算法 3 的 程序 进行 一 些 说 明 。 递 归 过 程 调 用 的 一 般 形式 是 传递 输入 的 数组 以 及 左 
边界 和 右边 界 , 它们 界定 了 数组 要 被 处 理 的 部 分 。 单 行 驱动 程序 通过 传递 数组 以 及 边界 0 和 
N — 1 而 将 该 过 程 启动 。 

第 8 行 至 第 12 行 处 理 基 准 情况 。 如 果 left== right, 那么 只 有 一 个 元 素 , 并 且 当 该 元 素 非 
负 时 它 就 是 最 大 子 序列 。leftt>right 的 情况 是 不 可 能 出 现 的 , 除非 N 是 负数 (不 过 , 程序 中 小 
的 扰动 有 可 能 致使 这 种 混乱 产生 )。 第 15 行 和 第 16 行 执行 两 个 递归 调用 。 我 们 可 以 看 到 , 递归 
调用 总 是 对 小 于 原 问 题 的 问题 进行 , 不 过 程序 中 的 小 扰动 有 可 能 破坏 这 个 特性 。 第 18 行 至 第 24 
行 以 及 第 26 行 至 第 32 行 计算 达到 中 间 分 界 处 的 两 个 最 大 和 的 和 数 。 这 两 个 值 的 和 为 扩展 到 左 
右 两 部 分 的 最 大 和 。 例 程 max3( 未 给 出 ) 返 回 这 三 个 可 能 的 最 大 和 中 的 最 大 者 。 

显然 , 算法 3 需要 比 前 面 两 种 算法 更 多 的 编程 努力 。 然 而 , 程序 短 并 不 总 意味 着 程序 好 。 正 
如 我 们 在 前 面 显示 算法 运行 时 间 的 表 中 已 经 看 到 的 , 除 最 小 的 输入 量 外 , 该 算法 比 前 两 个 算法 明 
显要 快 。 

对 运行 时 间 的 分 析 方 法 与 在 分 析 计 算 斐 波 那 契 数 程序 时 的 方法 类 似 。 令 T(N) 是 求解 大 小 
AN 的 最 大 子 序列 和 问题 所 花费 的 时 间 。 如 果 N = 1, 则 算法 3 执行 程序 第 8 行 到 第 12 行 花费 
某 个 常数 时 间 量 , 我 们 称 之 为 一 个 时 间 单 位 。 于 是 ，T(1) = 1。 和 否则 , 程序 必须 运行 两 个 递归 调 
FA, 即 在 第 19 行 和 第 32 行 之 间 的 两 个 for 循环 ,以 及 某 个 小 的 短 记 量 ， 如 第 14 行 和 第 18 行 。 
这 两 个 for 循环 总 共 接 触 到 从 Ao 到 An- | 的 每 一 个 元 素 , 而 在 循环 内 部 的 工作 量 是 常量 , 因此 ， 
在 第 19 到 32 行 花费 的 时 间 为 O(N)。 在 第 8 行 到 第 14 行 , 第 18、26 和 34 行 上 的 程序 的 工作 量 
都 是 常量 , 从 而 与 O(N) 相 比 可 以 忽略 。 其 余 就 是 第 15. 16 行 上 运行 的 工作 。 这 两 行 求解 大 小 
为 N/2 的 子 序列 问题 (假设 N 是 偶数 )。 因 此 , 这 两 行 每 行 花费 T(N 人 /2) 个 时 间 单 元 , HER 
2T(N 了 2) 个 时 间 单 元 。 算 法 3 花费 的 总 的 时 间 为 2T(N 人 2) + O(N)。 我 们 得 到 方程 组 

T(D 21 
T(N) =2T(N/2) + O(N) 

为 了 简化 计算 , 我 们 可 以 用 N 代替 上 面 方程 中 的 O(N) 项 ; AF T(N) 最 终 还 是 要 用 大 O 
来 表示 , 因此 这 么 做 并 不 影响 答案 。 在 第 7 章 , 我 们 将 会 看 到 如 何 严格 地 求解 这 个 方程 。 至 于 现 
fe, MH T(N)=2T(N2)+N, 且 T(1)=1, BA T(2) =4=2%2, T(4) =12=4%*3, T(8) = 
32-8*4, 以 及 T(16) =80= 16*5。 其 形式 是 显然 的 并 且 可 以 得 到 , 即 若 N —2*, WTCN)=N 
*(k+1)=N lg N+ N= O(N log N). 

这 个 分 析 假 设 N 是 偶数 , 否则 N /2 就 不 确定 了 。 通 过 该 分 析 的 递归 性 质 可 知 , 实际 上 只 有 
当 N 是 2 的 大 时 结果 才 是 合理 的 , 否则 我 们 最 终 要 得 到 大 小 不 是 偶数 的 子 问题 , 方程 就 是 无 效 
的 了 。 当 N 不 是 2 的 笑 时 , 我 们 多 少 需要 更 加 复杂 一 些 的 分 析 , 但 是 大 O 的 结果 是 不 变 的 。 

在 后 面 的 章节 中 , 我 们 将 看 到 递归 的 几 个 漂亮 的 应 用 。 这 里 , 我 们 还 是 介绍 求解 最 大 子 序列 
和 的 第 4 种 方法 , 该 算法 实现 起 来 要 比 递归 算法 简单 而 且 更 为 有 效 。 它 在 图 2-8 中 给 出 。 

不 难 理解 为 什么 时 间 的 界 是 正确 的 , 但 是 要 明白 为 什么 算法 是 正确 可 行 的 却 需要 多 加 思考 。 
为 了 分 析 原 因 , 注意 , 像 算 法 1 和 算法 2 一 样 , ; 代表 当前 序列 的 终点 , 而 i 代表 当前 序列 的 起 
点 。 碰 巧 的 是 , 如 果 我 们 不 需要 知道 具体 最 佳 的 子 序列 在 哪里 , 那么 i 的 使 用 可 以 从 程序 上 被 优 
化 , 因此 在 设计 算法 的 时 候 假 设 i 是 需要 的 , 而 且 我 们 想 要 改进 算法 2。 一 个 结论 是 , 如 果 ali] 
是 负 的 , 那么 它 不 可 能 代表 最 优 序 列 的 起 点 , 因为 任何 包含 af 订 的 作为 起 点 的 子 序 列 都 可 以 通过 
用 ali+1] 作 起 点 而 得 到 改进 。 类 似 地 , 任何 负 的 子 序列 不 可 能 是 最 优 子 序列 的 前 缀 (原理 相 
同 )。 如 果 在 内 循环 中 检测 到 从 al ij 到 a[j] 的 子 序列 是 负 的 , 那么 可 以 推进 i。 关 键 的 结论 是 ， 
我 们 不 仅 能 够 把 i 推进 到 i+1, 而 且 实 际 上 还 可 以 把 它 一 直 推 进 到 j+ 1。 为 了 看 清楚 这 一 点 ， 
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令 p 为 i+f1 和 j 之 间 的 任 一 下 标 。 开 始 于 下 标 p 的 任意 子 序列 都 不 大 于 在 下 标 i 开始 并 包含 从 
af[i] 到 a[p-1] 的 子 序列 的 对 应 的 子 序 列 ,， 因为 后 面 这 个 子 序列 不 是 负 的 (j 是 使 得 从 下 标 i 开始 
其 值 成 为 负 值 的 序列 的 第 一 个 下 标 )。 因 此 , 把 让 推进 到 j+ 1 是 没有 风险 的 : 我 们 一 个 最 优 解 也 
不 会 错过 。 


y** 
* Linear-time maximum contiguous subsequence sum algorithm. 
*/ 
public static int maxSubSum4( int [] a ) 
{ 


int maxSum = 0, thisSum = 0; 


人 nm 一 


Go ~ 


for( int j = 0; j < a.length; j++ ) 
{ 


thisSum += a[ j ]; 


if( thisSum > maxSum ) 
maxSum = thisSum; 

else if( thisSum < 0 ) 
thisSum = 0; 

} l 


return maxSum; 





图 2-8 算法 4 


这 个 算法 是 许多 聪明 算法 的 典型 : 运行 时 间 是 明显 的 , 但 正确 性 则 不 那么 容易 看 出 来 。 对 于 
这 些 算法 , 正式 的 正确 性 证 明 ( 比 上 面 的 分 析 更 正式 ) 几 乎 总 是 需要 的 ; 然而 ,即使 到 那 时 , 许多 
人 仍然 还 是 不 信服 。 此 外 , 许多 这 类 算法 需要 更 有 技巧 的 编程 ,这 导致 更 长 的 开发 过 程 。 不 过 当 
这 些 算法 正常 工作 时 , 它们 运行 得 很 快 ,而 我 们 将 它们 和 一 个 低 效 (但 容易 实现 ) 的 蛮 力 算法 通过 
小 规模 的 输入 进行 比较 可 以 测试 到 大 部 分 的 程序 原理 。 

该 算法 的 一 个 附带 的 优点 是 , 它 只 对 数据 进行 一 次 扫描 , 一 旦 a[ i] 被 读 人 并 被 处 理 , CRA 
再 需要 被 记忆 。 因 此 ,如 果 数 组 在 磁盘 上 或 通过 互联 网 传送 , 那么 它 就 可 以 被 按 顺 序 读 人 , 在 主 
存 中 不 必 存 储 数组 的 任何 部 分 。 不 仅 如 此 , 在 任意 时 刻 , 算法 都 能 对 它 已 经 读 人 的 数据 给 出 子 序 
列 问题 的 正确 答案 (其 他 算法 不 具有 这 个 特性 )。 具 有 这 种 特性 的 算法 叫做 联机 算法 (on-line algo- 
rithm)。 仅 需要 常量 空间 并 以 线性 时 间 运 行 的 联机 算法 几乎 是 完美 的 算法 。 

2.4.4 运行 时 间 中 的 对 数 

分 析 算 法 最 混乱 的 方面 大 概 集中 在 对 数 上面 。 我 们 已 经 看 到 , 某 些 分 治 算法 将 以 O(N log N) 
时 间 运 行 。 此 外 ,对 数 最 常 出 现 的 规律 可 概括 为 下 列 一 般 法 则 : 如 果 一 个 算法 用 常数 时 间 
(O 〇 (1)) 将 问题 的 大 小 前 减 为 其 一 部 分 (通常 是 1/2), 那么 该 算法 就 是 O(log N) —2 58, WR 
使 用 常数 时 间 只 是 把 问题 减少 一 个 常数 的 数量 (如 将 问题 减少 1), 那么 这 种 算法 就 是 ON). 

BR, 只 有 一 些 特殊 种 类 的 问题 才能 够 呈 O(log N) 型 。 例 如 , 车 输入 N 个 数 ， 则 算法 只 要 
把 这 些 数 读 人 就 必须 耗费 Q(N) 的 时 间 量 。 因 此 , 当 我 们 谈 到 这 类 问题 的 O(log N ) 算 法 时 , 通常 
都 是 假设 输入 数据 已 经 提前 读 人 。 下面 , 我 们 提供 具有 对 数 特点 的 三 个 例子 。 

折 半 查找 
第 一 个 例子 通常 叫做 折 半 查找 (binary search) 。 
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折 半 查找 : 

给 定 一 个 整数 X 和 整数 Ao, Al,…,An-_1, 后 者 已 经 预先 排序 并 在 内 存 中 , 求 下 标 i 使 得 
A;=X, 如 果 X 不 在 数据 中 , 则 返回 ;= 一 1。 

明显 的 解法 是 从 左 到 右 扫 描 数 据 , 其 运行 花费 线性 时 间 。 然 而 , 这 个 算法 没有 用 到 该 表 已 经 
排序 的 事实 , 这 就 使 得 算法 很 可 能 不 是 最 好 的 。 一 个 好 的 策略 是 验证 X 是 否 是 居中 的 元 素 。 如 
RE, 则 答案 就 找到 了 。 如 果 X NFR PCR, 那么 我 们 可 以 应 用 同样 的 策略 于 居中 元 素 左 边 
已 排序 的 子 序列 ; 同 理 , 如 果 X AFR PICK, 那么 我 们 检查 数据 的 右 半 部 分 。( 同 样 ,也 存在 
可 能 会 终止 的 情况 。) 图 2-9 列 出 了 折 半 查找 的 程序 (其 答案 为 mid)。 图 中 的 程序 同样 也 反映 了 
Java 语言 数组 下 标 从 0 开始 的 惯例 。 


yt 

* Performs the standard binary search. 

* @return index where item is found, or -1 if not found. 

* 
public static <AnyType extends Comparable<? super AnyType>> 
int binarySearch( AnyType [ ] a, AnyType x ) 

{ 

int low = 0, high = a.length - 1; 


iO O00 4 nmr UN — 


while( low <= high ) 
{ 
int mid = ( low + high ) / 2; 


if( af mid ].compareTo( x ) < 0) 
low = mid + 1; 


else if( a( mid ].compareTo( x ) > 0) 
high - mid - 1; 

else 
return mid; // Found 


) 
return NOT FOUND; // NOT FOUND is defined as -1 





图 2-9 HEER 


BR, 每 次 迭代 在 循环 内 的 所 有 工作 花费 OO), 因此 分 析 需 要 确定 循环 的 次 数 。 循 环 从 
high- low= N -1 FRH É high-low 三 -1 结束。 每 次 循环 后 high- low 的 值 至 少将 该 次 循环 
前 的 值 折 半 ; 于 是 , 循环 的 次 数 最 多 为 [log(N- 1)1+2。( 例 如 , 若 high- low= 128, WERKE 
代 后 high- low 的 最 大 值 是 64,32,16,8,4,2,1,0, - 1。) 因 此 , 运行 时 间 是 O(log N)。 与 此 等 价 ， 
我 们 也 可 以 写 出 运行 时 间 的 递 推 公式 , 不 过 , 当 我 们 理解 实际 在 做 什么 以 及 为 什么 的 原理 时 , 这 
种 强行 写 公 式 的 做 法 通常 没有 必要 。 

折 半 查找 可 以 看 做 是 我 们 的 第 一 个 数据 结构 实现 方法 , 它 提供 了 在 O(log N) 时 间 内 的 con- 
tains 操作 , 但 是 所 有 其 他 操作 (特别 是 insert 操作 ) 均 需要 O(N) 时 间 。 在 数据 是 稳定 ( 即 不 允 
许 插 和 人 操作 和 删除 操作 ) 的 应 用 中 , 这 种 操作 可 能 是 非常 有 用 的 。 此 时 输入 数据 需要 一 次 排序 ， 
但 是 此 后 的 访问 会 很 快 。 有 个 例子 是 一 个 程序 , 它 需 要 保留 (产生 于 化 学 和 物理 领域 的 ) 元 素 周 
期 表 的 信息 。 这 个 表 是 相对 稳定 的 , 因为 很 少 会 加 进 新 的 元 素 。 元 素 名 可 以 始终 是 排序 的 。 由 
于 只 有 大 约 110 种 元 素 , 因此 找 出 一 个 元 素 最 多 需要 访问 8 次 。 要 是 执行 顺序 查找 就 会 需要 多 得 


Download at http:// www.pinb5i.com/ 


算法 分 新 35 


多 的 访问 次 数 。 
欧 几 里 得 算法 

第 二 个 例子 是 计算 最 大 公 因数 的 欧 几 里 得 算法 。 两 个 整数 的 最 大 公 因 数 ( gcd ) 是 同时 整除 二 
者 的 最 大 整数 。 于 是 ，gcd (50,15) =5。 图 2-10 所 示 的 算法 计算 gcd(M,N), 假设 M 宇 N( 如 果 
N>M, 则 循环 的 第 一 次 迭代 将 它们 互相 交换 )。 


public static long gcd( long m, long n ) 
{ 
while( n != 0 ) 
{ 
long rem = m 5 n; 
m= nN; 
n = rem; 
} 


return m; 


— 


] 
2 
3 
4 
5 
6 
7 
8 
9 
0 





图 2-10 KULEA 


算法 连续 计算 余数 直到 余数 是 0 为 止 , 最 后 的 非 零 余数 就 是 最 大 公 因 数 。 因 此 ,如果 M= 
1989 和 N —1590, 则 余数 序列 是 399,393,6,3,0。 从 而 ，gcd (1989,1590)=3。 正 如 例子 所 表明 
的 , 这 是 一 个 快速 算法 。 . 

如 前 所 述 , 估计 算法 的 整个 运行 时 间 依 赖 于 确定 余数 序列 究竟 有 多 长 。 虽 然 log N 看 似 像 理 
想 中 的 答案 , 但 是 根本 看 不 出 余数 的 值 按 照常 数 因 子 递 减 的 必然 性 , 因为 我 们 看 到 , 例 中 的 余数 
从 399 仅仅 降 到 393, BS, 在 一 次 迭代 中 余数 并 不 按照 一 个 常数 因子 递 天 。 然 而 , 我 们 可 以 证 
BA, 在 两 次 迭代 以 后 , 余数 最 多 是 原始 值 的 一 半 。 这 就 证 明了 , 迭代 次 数 至 多 是 2 log N= O(log N) 从 
而 得 到 运行 时 间 。 这 个 证 明 并 不 难 , 因此 我 们 将 它 放 在 这 里 , 可 从 下 列 定理 直接 推出 它 。 

定理 2.1 如 果 M>N, 则 M mod NX M72. 


WAA: 
存在 两 种 情形 。 如 果 NSIMA, 则 由 于 余数 小 于 N, 故 定理 在 这 种 情形 下 成 立 。 另 一 种 情 
形 是 N>M/2。 但 是 此 时 M 仅 含 有 一 个 N 从 而 余数 为 M 一 N< M/, 定理 得 证 。 B 


从 上 面 的 例子 来 看 , 2 log N 大 约 为 20， 而 我 们 仅 进行 了 7 次 运算 , 因此 有 人 会 怀疑 这 是 不 
是 可 能 的 最 好 的 界 。 事 实 上 , 这 个 常数 在 最 坏 的 情况 下 还 可 以 稍微 改进 成 1.44log N( 如 M 和 N 
是 两 个 相 邻 的 斐 波 那 契 数 时 就 是 这 种 情况 )。 欧 几 里 得 算法 在 平均 情况 下 的 性 能 需要 大 量 篇 幅 的 
高 度 复杂 的 数学 分 析 , 其 迭代 的 平均 次 数 约 为 (12 In InN) A? + 1.47。 
wich 

fel VA T8 a — 7 Bi F Se — PEC RETR). HRA A RK 
一 般 都 是 相当 大 的 , 因此 , 我 们 只 能 在 假设 有 一 台 机 器 能 够 存储 这 样 一 些 大 整数 (或 有 一 个 编译 
程序 能 够 模拟 它 ) 的 情况 下 进行 我 们 的 分 析 。 我 们 将 用 乘法 的 次 数 作为 运行 时 间 的 度量 。 

计算 X 的 明显 的 算法 是 使 用 NN — 1 次 乘法 自 乘 。 有 一 种 递归 算法 效果 更 好 。 六 委 1 是 这 种 
递归 的 基准 情形 。 否 则 , 若 N 是 偶数 , 我 们 有 XN = X.X, 如 果 N 是 奇数 , 则 XN = 
X(N-02. x(N-02, X 

例如 , 为 了 计算 Xx, 算法 将 如 下 进行 , 它 只 用 到 9 次 乘法 : 

xX3= (X*)X, X= (WPX, X" = (X'yx,X! = (X5yx,x€- ( X?! )? 

显然 , 所 需要 的 乘法 次 数 最 多 是 ZlogN , 因为 把 问题 分 半 最 多 需要 两 次 乘法 (如 果 N 是 奇数 )。 这 
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里 , 我 们 又 可 写 出 一 个 递 推 公式 并 将 其 解 出 。 简 单 的 直觉 避免 了 盲目 的 蝇 行 处 理 。 

图 2-11 中 的 代码 实现 了 这 个 想法 92。 有 时 候 看 一 看 程序 能 够 进行 多 大 的 调整 而 不 影响 其 正 
确 性 倒是 很 有 意思 的 。 在 图 2-11 中 , 第 5 行 到 第 6 行 实际 上 不 是 必需 的 , 因为 如 果 N 是 1, 那么 
第 10 行将 做 同样 的 事情 。 第 10 行 还 可 以 写成 : 

10 return pow( x, n- 1) * x; 
而 不 影响 程序 的 正确 性 。 事 实 上 , 程序 仍 将 以 O(log n) 运 行 , 因为 乘法 的 序列 同 以 前 一 样 。 不 
ib, 下 面 所 有 对 第 8 行 的 修改 都 是 不 可 取 的 ,虽然 它们 看 起 来 似乎 都 正确 : 


8a return pow( pow( x, 2), n/2 )5 
8b return pow( pow( x, n/2), 2 ); 
Sc return pow( x, n/2) * pow{ x, n/2); 


public static long pow( long x, int n ) 


if( n--0) 
return 1; 
if( n == 1 ) 
return X; 
if( isEven( n ) ) 
return pow{ x * x, n/2); 
else 
return pow( x * x, n /-2) * x; 


] 
2 
3 
4 
5 
6 
7 
8 
9 
0 
l 


] 
l 





图 2-11 jfmXCE NOST. 


8a 和 8b 两 行 都 是 不 正确 的 ,因为 当 N 是 2 时 递归 调用 pow 中 有 一 个 是 以 2 作为 第 2 个 参数 。 这 
E, 程序 产生 一 个 无 限 循环 , 将 不 能 往 下 进行 (最 终 导 致 程序 非 正常 终止 )。 

使 用 8c 行 会 影响 程序 的 效率 , 因为 此 时 有 两 个 大 小 为 N/2 的 递归 调用 而 不 是 一 个 。 分 析 指 
出 , 其 运行 时 间 不 再 是 O(log N). 我 们 把 它 作为 练习 留 给 读者 去 确定 这 个 新 的 运行 时 间 。 
2.4.5 检验 你 的 分 析 

一 旦 分 析 进 行 过 后 ， 则 需要 看 一 看 答案 是 否 正确 , 是 否 尽 可 能 地 好 。 一 种 实现 方法 是 编程 并 
比较 实际 观察 到 的 运行 时 间 与 通过 分 析 所 描述 的 运行 时 间 是 否 一 致 。 当 N 扩大 一 倍 , WATER: 
序 的 运行 时 间 乘 以 因子 2, 二 次 程序 的 运行 时 间 乘 以 因子 4, 而 三 次 程序 则 乘 以 因子 8。 以 对 数 时 
间 运 行 的 程序 , 当 N 增加 一 倍 时 其 运行 时 间 只 是 多 加 一 个 常数 , 而 以 O(N log NN) 运 行 的 程序 则 
花费 比 在 相同 环境 下 运行 时 间 的 两 倍 稍 多 一 些 的 时 间 。 如 果 低 阶 项 的 系数 相对 较 大 , JE RN X. 
不 是 足够 地 大 , 那么 运行 时 间 的 这 种 增加 量 很 难 观察 清楚 。 例 如 , 对 于 最 大 子 序 列 和 问题 ， 当 从 
N= 10 增 加 到 N=100 时 其 各 种 实现 方法 运行 时 间 的 变化 就 是 一 个 例子 。 单 纯 赁 实践 区 分 线性 
程序 还 是 O(N log NN) 程 序 是 非常 困难 的 。 

验证 一 个 程序 是 否 是 O( 了 (N)) 的 另 一 个 常用 的 技巧 是 对 N 的 某 个 范围 (通常 用 2 的 倍数 隔 
开 ) 计 算 比 值 T(N)/f(N), 其 中 T(N) 是 凭 经 验 观察 到 的 运行 时 间 。 如 果 f(N) 是 运行 时 间 的 
理想 近似 , 那么 所 算出 的 值 收敛 于 一 个 正常 数 。 如 果 f(N) 估 计 过 大 , 则 算出 的 值 收 敛 于 0。 如 
R f(NN) 估 计 过 低 从 而 O(f(N)) 是 错 的 , 那么 计算 出 的 值 发 散 。 











O ”Java 提供 一 个 BigInteger 类 , 这 个 类 可 以 用 来 处 理 任 意 大 的 整数 。 很 容易 把 图 2-11 改写 成 使 用 BigInteger 而 不 
用 long。 
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作为 一 个 例子 , 图 2-12 中 的 程序 段 计算 两 个 随机 选取 并 小 于 或 等 于 N 的 互 异 正 整 数 互 秦 的 
概率 。( 当 N 增 大 时 , 结果 将 趋向 于 6 。) 





public static double probRelPrim( int n ) 
int rel = 0, tot = 0; 


for( int i = 1; i <= n; i++) 
for( int j = i + 1; j <= n; j++ ) 
{ 
tot**; 
if( gcd( i, j ) == 1) 
rele; 


) 


return (double) rel / tot; 


} 


图 2-12 ”估计 两 个 随机 数 互 素 的 概率 


我 们 应 该 能 够 立即 对 这 个 程序 做 出 分 析 。 图 2-13 显示 实际 观察 到 的 该 例 程 在 一 台 具 体 的 计 
算 机 上 的 运行 时 间 。 该 图 表 指 出 , 表 中 的 最 后 一 列 是 最 合适 的 , 因此 所 得 出 的 这 个 分 析 很 可 能 正 


确 。 注 意 , 在 OCN?)fn O(N’logN) 之 间 没 有 多 大 差别 , 因为 对 数 增长 得 很 慢 。 


CPU time( T) 


T/N? 
.002 200 
.001 400 
.001311 
.001 294 
.001 272 


.001 294 
.001 314 
.001 322 
.001 341 
.001 362 


.001 440 
.001 482 
.001 608 


T/N? 


.000 022 000 
-000 007 000 
-000 004 370 
.000 003 234 
.000 002 544 


.000 002 157 
.000 001 877 
-000 001 652 
.000 001 490 
.000 001 362 


.000 000 960 
.000 000 740 
. 000 000 402 





T/(N?logN) 
.000 477 7 
.000 264 2 
-000 229 9 
.000 215 9 
.000 204 7 


.000 202 4 
.000 200 6 
.000 197 7 
.000 197 1 
.000 197 2 


.000 196 9 
.000 194 7 
-000 193 8 


图 2-13 对 图 2-12 中 例 程 的 经 验 运行 时 间 
2.4.6 分 析 结 果 的 准确 性 
根据 经 验 ， 有 时 分 析 会 估计 过 大 。 如 果 这 种 情况 发 生 , 那么 或 者 需要 进一步 细 化 分 析 ( 一 般 
通过 机 人 敏 的 观察 ), 或 者 可 能 是 平均 运行 时 间 显 著 小 于 最 坏 情形 的 运行 时 间 , 不 可 能 对 所 得 的 界 
再 加 以 改进 。 对 于 许多 复杂 的 算法 , 最 坏 的 界 通过 某 个 坏 的 输入 是 可 以 达到 的 , 但 在 实践 中 它 通 
常 是 估计 过 大 的 。 遗 憾 的 是 , 对 于 大 多 数 这 类 问题 , 平均 情形 的 分 析 是 极其 复杂 的 (在 许多 情形 
下 仍然 悬而未决 )， 而 最 坏 情 形 的 界 尽 管 过 分 地 悲观 , 但 却 是 最 好 的 已 知 解析 结果 。 
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小 结 


本 章 对 如 何 分 析 程 序 的 复杂 性 给 出 一 些 提示 。 遗 憾 的 是 , 它 并 不 是 完善 的 分 析 指南 。 简 单 
的 程序 通常 给 出 简单 的 分 析 , 但 是 情况 也 并 不 总 是 如 此 。 作 为 一 个 例子 , 在 本 书 稍 后 我 们 将 看 到 
一 个 排序 算法 (和 希 尔 排 序 , 第 7 章 ) 和 一 个 保持 不 相交 和 集 的 算法 (第 8 章 ), 它们 大 约 都 需要 20 17 
程序 代码 。 希 尔 排序 (Shellsort) 的 分 析 仍 然 不 完善 ,而 不 相交 集 算 法 分 析 极 其 困难 ， 需 要 许多 页 
错综复杂 的 计算 。 不 过 , 我 们 在 这 里 遇 到 的 大 部 分 的 分 析 都 是 简单 的 , 它们 涉及 对 循环 的 
计数 。 

一 类 有 趣 的 分 析 是 下 界 分 析 , 我 们 尚未 接触 到 。 在 第 7 章 我 们 将 看 到 这 方面 的 一 个 例子 : 证 
明 任何 仅 通过 使 用 比较 来 进行 排序 的 算法 在 最 坏 的 情形 下 只 需要 Q(N log N) 次 比较 。 下 界 的 证 
明 一 般 是 最 困难 的 , 因为 它们 不 只 适用 求解 某 个 问题 的 一 个 算法 而 是 适用 求解 该 问题 的 一 类 
算法 。 

在 本 章 结束 前 , 我 们 指出 此 处 描述 的 某 些 算法 在 实际 生活 中 的 应 用 。gcd PK AR EAE 
用 在 密码 学 中 。 特 别 地 , 400 位 数字 的 数 自 乘 至 一 个 大 的 罕 次 (通常 为 男 一 个 400 位 数字 的 数 ) 而 
在 每 乘 一 次 后 只 有 低 400 位 左右 的 数字 保留 下 来 。 由 于 这 种 计算 需要 处 理 400 位 数字 的 数 , 因此 
效率 显然 是 非常 重要 的 。 求 寡 运 算 的 直接 相 乘 会 需要 大 约 10” 次 乘法 , 而 上 面 描述 的 算法 在 最 
坏 情形 下 只 需要 大 约 2 600 次 乘法 。 


练习 


2.1 ” 按 增长 率 排列 下 列 函 数 ; N,WVN ,NIL5,Nz,N log N,N log log N,N log N,N log(N?), 
2/N ,2N,2N2?,37,N?*logN,N3。 指 出 哪些 函数 以 相同 的 增长 率 增长 。 

2.2 设 TI(N)=O(F(N)) 和 TT,(N)= 0O(f(N))。 下 列 等 式 哪 些 成 立 ? 
a. Ti(N) + T,(N)= O(f(N)) 
b. T((N) - TZIN) 2 oCfC N)) 


TICN) _ 
C. T(N) 90) 


d. T(N)=O(T:(N)) 

2.3 ”哪个 函数 增长 得 更 快 : N log N, 还 是 N'Y e >0) 

2.4 ”证 明 对 任意 常数 ,logtN = o(N)。 

2.5 SRP RR Ff NOI g(NN) 使 得 既 不 f(N)= O(g(N)), 又 不 g(N)= O(f(N))。 

2.6 ”在 最 近 的 一 次 法 庭审 理 案件 中 , 一 位 法 官 因 茂 视 罪 传讯 一 个 城市 并 命令 第 一 天 交纳 罚金 
2 美元 , 以 后 每 天 的 罚金 都 要 将 上 一 天 的 罚金 数额 平方 , 直到 该 城市 服从 该 法 官 的 命令 
为 止 ( 即 , 罚金 上 升 如 下 : $2, $4, $16, $256, $65 536,…)。 

a. 在 第 N X] HE Iv 

b. 使 罚金 达到 美元 需要 多 少 天 ? (大 O 的 答案 即 可 ) 
2.7 ”对 于 下 列 六 个 程序 片段 中 的 每 一 个 : 

a. 给 出 运行 时 间 分 析 ( 使 用 大 O)。 

b. 用 Java 语言 编程 , 并 对 N 的 若干 具体 值 给 出 运行 时 间 。 

c. 用 实际 的 运行 时 间 与 你 所 做 的 分 析 进 行 比较 。 
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(1) 


(2) 


(3) 


(4) 


(5) 


(6) 


2.8 





sum = 0; 
for( i = 0; i «m ie) 


sumt; 


sum = 0; 
for( i = 0; i < n; i++) 


for( j = 0; j < n; j+ ) 
sumt*; 


sum = 0; 
for( i = 0; i < n; i++) 


for( j = 0; j<n* n; j+) 
sumt+; 


sum = 0; 
for{ i = 0; i < n; i++ ) 


for( j = 0; j «i; j++ ) 
sum++; 


sum = 0; 
for{ i = 0; i < n; i++) 


for( j= 0; j<i* i; j++) 
for( k = 0; k < j; k++ ) 
sume; 


sum = 0; 
for{ i = 1; i < n; i++) 


for( J = 1; j «1 * 14; jt ) 
if( j $$ 220) 
for( k = 0; k< j; kt) 
sum++; 


假设 需要 生成 前 N 个 整数 的 一 个 随机 置换 。 例 如 ,14,3,1,5,21 和 13,1,4,2,5} 就 是 合法 
的 置换 , 但 15,4,1,2,1} 则 不 是 ， 因 为数 1 出 现 两 次 而 数 3 却 没有 。 这 个 程序 常常 用 于 模 
拟 一 些 算法 。 我 们 假设 存在 一 个 随机 数 生 成 器 r, 它 有 方法 randInt(i,j), 它 以 相同 的 
概率 生成 i 和 j 之 间 的 整数 。 下 面 是 三 个 算法 : 


1. 


2. 


如 下 填 人 从 a[0] 到 a[n-1] 的 数组 a; 为 了 填 人 ali], 生成 随机 数 直到 它 不 同 于 已 经 
生成 的 aL0],al1],… ,a[li-1] 时 再 将 其 填 人 alila 

同 算法 (1), 但 是 要 保存 一 个 附加 的 数组 , 称 之 为 used 数组 。 当 一 个 随机 数 ran 最 初 
被 放 人 数组 a 的 时 候 , 置 used[ ran] = true。 这 就 是 说 ， 当 用 一 个 随机 数 填 人 a[ i] 时 ， 
可 以 用 一 步 来 测试 是 否 该 随机 数 已 经 被 使 用 , 而 不 是 像 第 一 个 算法 那样 (可 能 ) 用 i 步 
测试 。 


. 填写 该 数组 使 得 a[i] = i+1。 然 后 


for(i-1;i«nm; ie) 
swapReferences( a[ i], a[ randInt( 0, i ) 1 ); 

a. 证 明 这 三 个 算法 都 生成 合法 的 置换 , 并 且 所 有 的 置换 都 是 可 能 的 。 

b. 对 每 一 个 算法 给 出 你 能 够 得 到 的 尽 可 能 准确 的 期 望 运行 时 间 分 析 ( 用 大 O)。 

c. 分 别 写 出 程序 来 执行 每 个 算法 10 次 , 得 出 一 个 好 的 平均 值 。 对 N = 250, 500, 
1000,2000 运行 程序 (1); 对 N = 25 000, 50 000 ,100 000 ,200 000 ,400 000 ,800 000 运行 
程序 (2); 对 N= 100 000,200 000,400 000,800 000, 1 600 000,3 200 000,6 400 000 
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2.9 


2.10 


2.11 


2.14 


2.15 


2,17 


HLF 


运行 程序 (3)。 
d. 将 实际 的 运行 时 间 与 你 的 分 析 进 行 比较 。 
e. 每 个 算法 的 最 坏 情形 的 运行 时 间 是 什么 ? 

用 运行 时 间 的 估计 值 完 成 图 2-2 中 的 表 , 这 些 时 间 太 长 无 法 模拟 。 插 人 上 述 三 个 算法 的 
运行 时 间 并 估计 计算 100 万 个 数 的 最 大 子 序列 和 所 需要 的 时 间 。 你 得 出 哪些 假设 ? 
对 于 手工 进行 计算 所 使 用 的 典型 算法 , 确定 下 列 计算 的 运行 时 间 : 
a. 将 两 个 N 位 数字 的 整数 相 加 。 
b. 将 两 个 N 位 数字 的 整数 相 乘 。 
c. 将 两 个 N 位 数字 的 整数 相 除 。 
一 个 算法 对 于 大 小 为 100 的 输入 花费 0.5 ms。 如 果 运 行 时 间 如 下 , 则 解决 输入 量 大 小 为 
500 的 问题 需要 花费 多 长 的 时 间 ( 设 低 阶 项 可 以 忽略 ): 
a. 是 线性 的 
b. 为 O(N log N) 
c. 是 二 次 的 
d. 是 三 次 的 
一 个 算法 对 于 大 小 为 100 的 输入 花费 0.5 ms。 如 果 运 行 时 间 如 下 , 则 用 1 分 钟 可 以 解决 
多 大 的 问题 ( 设 低 阶 项 可 以 忽略 ): 
a. 是 线性 的 
b. 为 O(N log N) 
c. 是 二 次 的 
d. 是 三 次 的 


计算 f(x) = RIT. 需要 多 少时 间 ? 


a. 用 简单 的 例 程 执行 取 适 运 算 。 
b. 使 用 2.4.4 节 的 例 程 计算 。 


考虑 下 述 算法 ( 称 为 Homer 法 则 ) 计算 A(X) = 937 caue 的 值 : 
poly = 0; 
for( i = n; i >= 0; i-- ) 
poly = x * poly + a[i]; 
a. 对 z=3，F(z)=4z+8zs+zr+2 指 出 该 算法 的 各 步 是 如 何 进行 的 。 
b. 解释 该 算法 为 什么 能 够 解决 这 个 问题 。 
c. 该 算法 的 运行 时 间 是 多 少 ? 
给 出 一 个 有 效 的 算法 来 确定 在 整数 A1< A，< A3<…< Ay 的 数组 中 是 否 存在 整数 i 使 
得 Ai; = i。 你 的 算法 的 运行 时 间 是 多 少 ? 
基于 下 列 各 式 编写 另外 的 ged 算法 (其 中 a5) 


* ged (a,b) =2ged(a/2,b/2) Ba 和 6 均 为 偶数 。 

* gcd(a,b)= ged(a/2,b) 车 a HB, b 为 奇数 。 
© gcd(a,b)= gcd(a,b/2) 车 a 为 奇数 ,5 ABR. 
。 ged(a,b)  ged((a* b)/2,(a—-b)/2) a Mb HKRM. 
给 出 有 效 的 算法 (及 其 运行 时 间 分 析 ) : 


a. 求 最 小 子 序 列 和 。 


b. 求 最 小 的 正 子 序列 和 。 
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C. 求 最 大 子 序列 乘积 。 


2.18 数值 分 析 中 一 个 重要 的 问题 是 对 某 个 任意 的 函数 f 找 出 方程 f(X)=0 的 一 个 解 。 如 果 


2.20 


2.26 


该 函数 是 连续 的 并 有 两 个 点 low 和 high 使 得 f( low) Il f high ) 符 号 相反 , 那么 在 low 和 
high 之 间 必 然 存在 一 个 根 , 并 且 这 个 根 可 以 通过 折 半 查找 求 得 。 写 出 一 个 函数 , 以 f. 
low 和 high 为 参数 , 并 且 解 出 一 个 零点 。( 为 了 实现 一 个 泛 型 函数 作为 参数 , 我 们 传递 
一 个 函数 对 象 , 让 该 对 象 实现 Function HO, 而 这 个 Function 接口 含有 一 个 方法 f) 为 
保证 能 够 终止 , 你 必须 要 做 什么 ? 
课文 中 最 大 相连 子 序列 和 算法 均 不 给 出 具体 序列 的 任何 指示 。 将 这 些 算 法 修改 使 得 它们 
以 单个 对 象 的 形式 返回 最 大 子 序列 的 值 以 及 具体 序列 的 那些 相应 下 标 。 
a. 编写 一 个 程序 来 确定 正 整数 N 是 否 是 素数 。 
b. 你 的 程序 在 最 坏 情 形 下 的 运行 时 间 是 多 少 (用 N 表示 )? (你 应 该 能 够 以 O(V N ) 来 完 
成 这 项 工作 ) 
c. 令 B 等 于 N 的 二 进 制 表示 法 中 的 位 数 。B 的 值 是 多 少 ? 
d. 你 的 程序 在 最 坏 情 形 下 的 运行 时 间 是 什么 (用 B 表示 )? 
e. 比较 确定 一 个 20( 二 进 制 ) 位 的 数 是 否 是 素数 和 确定 一 个 40( 二 进 制 ) 位 的 数 是 否 是 素 
数 的 运行 时 间 。 
f. 用 N 或 B 给 出 运行 时 间 更 合理 吗 ? 为 什么 ? 
厄 拉 多 塞 (Erastothenes) 筛 是 一 种 用 于 计算 小 于 N 的 所 有 素数 的 方法 。 我 们 从 制作 整数 
2 到 N 的 表 开始 。 找 出 最 小 的 未 被 删除 的 整数 i, 打印 i, 然后 删除 i,2i,3i,…。 当 i> 
/ N 时 , 算法 终止 。 该 算法 的 运行 时 间 是 多 少 ? 
证 明 X2 可 以 只 用 8 次 乘法 算出 。 
不 用 递归 , SH RR EE o 
给 出 用 于 快速 取 寡 运算 中 的 乘法 次 数 的 精确 计数 。( 提 示 : 考虑 N 的 二 进 制 表示 ) 
程序 A 和 B 经 分 析 发 现 其 最 坏 情 形 运 行 时 间 分 别 不 大 于 150N log N 和 N*。 如 果 可 能 ， 
请 回答 下 列 问题 : 
a. 对 于 NN 的 大 值 (N>10 000), 哪 一 个 程序 的 运行 时 间 有 更 好 的 保障 ? 
b. 对 于 NN 的 小 值 (N<100), 哪 一 个 程序 的 运行 时 间 有 更 好 的 保障 ? 
c. 对 于 N-1000, 哪 一 个 程序 平均 运行 得 更 快 ? 
d. 对 于 所 有 可 能 的 输入 , 程序 B 是 否 总 能 够 比 程序 A 运行 得 更 快 ? 
大 小 为 N 的 数组 A, 其 主 元 素 是 一 个 出 现 超过 NZ 次 的 元 素 ( 从 而 这 样 的 元 素 最 多 有 一 
个 )。 例 如 , 数组 
3,3,4,2,4,4,2,4,4 
有 一 个 主 元 素 4, 而 数组 
3,3,4,2,4,4,2,4 
没有 主 元 素 。 如 果 没 有 主 元 素 , 那么 你 的 程序 应 该 指出 来 。 下 面 是 求解 该 问题 的 一 个 算 
法 的 概要 : 
首先 , 找 出 主 元 素 的 一 个 候选 元 (这 是 困难 的 部 分 )。 这 个 候选 元 是 唯一 有 可 能 是 主 元 素 
的 元 素 。 第 二 步 确 定 是 否 该 候选 元 实际 上 就 是 主 元 素 。 这 正好 是 对 数组 的 顺序 搜索 。 为 
找 出 数组 A 的 一 个 候选 元 , 构造 第 二 个 数组 B。 比 较 A, 和 Az。 如 果 它 们 相等 , 则 取 其 
中 之 一 加 到 数组 B 中 ; 否则 什么 也 不 做 。 然 后 比较 A, 和 A, 同样 ,如 果 它 们 相等 ， 则 


取 其 中 之 一 加 到 B; 否则 什么 也 不 做 。 以 该 方式 继续 下 去 直到 读 完 整个 的 数组 。 然 
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后 , 递归 地 寻找 数组 B 中 的 候选 元 ; 它 也 是 A 的 候选 元 (为 什么 )。 
a. 递归 如 何 终止 ? 
"b. 当 N 是 奇数 时 的 情形 如 何 处 理 ? 
"c 该 算法 的 运行 时 间 是 多 少 ? 
d. 我 们 如 何 避 免 使 用 附加 数组 B? 
"e. 编写 一 个 程序 求解 主 元 素 。 
2.27 输入 是 一 个 NxN 数 字 矩 阵 并 且 已 经 读 人 内 存 。 每 一 行 均 从 左 到 右 递 增 。 每 一 列 则 从 
上 到 下 递增 。 给 出 一 个 O(N) 最 坏 情形 算法 以 决定 数 X 是 否 在 该 矩阵 中 。 
2.28 使 用 正 数 的 数组 a 设计 有 效 的 算法 以 确定 : 
a. a[j] +ali] 的 最 大 值 , 其 中 joie 
b. a[j] -a[ 记 的 最 大 值 , 其 中 j 宇 i。 
c. a[j] * a[i] 的 最 大 值 , 其 中 ji. 
d. a[j]/ali] 的 最 大 值 , 其 中 j 之 in 
"2.29 在 我 们 的 计算 机 模型 中 为 什么 假设 整数 具有 固定 长 度 是 重要 的 ? 
2.30 考虑 第 1 章 中 描述 的 字谜 游戏 。 假 设 我 们 固定 最 长 单词 的 大 小 为 10 个 字符 。 
a. WR. C 和 多 分别 表示 字谜 游戏 中 的 行 数 、 列 数 和 单词 个 数 , 那么 在 第 1 章 所 描述 的 
那些 算法 用 R、C 和 W 表示 的 运行 时 间 是 多 少 ? 
b. 设 单词 表 是 预先 排序 过 的 。 指 出 如 何 使 用 折 半 查找 得 到 一 个 具有 少 得 多 的 运行 时 间 


的 算法 。 
2.3 设 在 折 半 查找 程序 的 第 15 行 的 语句 是 low= mid 而 不 是 low= mid 1。 这 个 程序 还 能 正 
确 运 行 吗 ? 
2.32 实现 折 半 查找 使 得 在 每 次 迭代 中 只 执行 一 次 二 路 比较 。( 课 文中 的 实现 使 用 了 三 路 比较 。 
假设 只 有 方法 lessThan 是 可 用 的 。) 
2.33. WE 3( 见 图 2-7) 的 第 15 行 和 第 16 行 由 
15 int maxLeftSum = maxSubSum( a, left, center - 1 ); 
16 int maxRightSum = maxSubSum( a, center, right ); 


代替 ,这 个 程序 还 能 正确 运行 吗 ? 

“2.34 三 次 的 最 大 子 序列 和 算法 的 内 循环 执行 NIN+1)(N+2)~m6 次 最 内 层 代 码 的 迭代 。 相 
应 的 二 次 算法 执行 NIN+1)/ 次 迭代 。 而 线性 算法 执行 N 次 迭代 。 哪 种 模式 是 显然 
的 ? 你 能 给 出 这 种 现象 的 组 合 学 解释 吗 ? 
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第 3 章 表 、 栈 和 队列 


本 章 讨论 最 简单 和 最 基本 的 三 种 数据 结构 。 实 际 上 , 每 一 个 有 意义 的 程序 都 将 显 式 地 至 少 
使 用 一 种 这 样 的 数据 结构 , 而 栈 则 在 程序 中 总 是 要 被 间接 地 用 到 , 不 管 我 们 在 程序 中 是 否 做 了 声 
明 。 在 本 章 中 , 我 们 将 重点 

。 介绍 抽象 数据 类 型 的 概念 。 

。 阐述 如 何 有 效 地 执行 表 的 操作 。 

。 介绍 栈 ADT 及 其 在 实现 递归 方面 的 应 用 。 

。 介绍 队列 ADT 及 其 在 操作 系统 和 算法 设计 中 的 应 用 。 

在 这 一 章 , 我 们 提供 实现 两 个 库 类 重要 子 集 ArrayList 和 LinkedList 的 代码 。 


3.1 抽象 数据 类 型 


抽象 数据 类 型 (abstract data type，ADT) 是 带 有 一 组 操作 的 一 些 对 象 的 集合 。 抽 象 数据 类 型 
是 数学 的 抽象 ; 在 ADT 的 定义 中 没有 地 方 提 到 关于 这 组 操作 是 如 何 实现 的 任何 解释 。 诸 如 表 、 
集合 、 图 以 及 与 它们 各 自 的 操作 一 起 形成 的 这 些 对 象 都 可 以 被 看 做 是 抽象 数据 类 型 ， 这 就 像 整 
数 、 实 数 、 布 尔 数 都 是 数据 类 型 一 样 。 整 数 、 实 数 和 布尔 数 各 自 都 有 与 之 相关 的 操作 ， 而 抽象 数 
据 类 型 也 是 如 此 。 对 于 集合 ADT, 可 以 有 像 添 加 (add) , RIF (remove) 、 以 及 包含 (cotains) 这 样 一 
些 操作 。 当 然 , 也 可 以 只 要 两 种 操作 并 (union) 和 查找 (find), 这 两 种 操作 又 在 这 个 集合 上 定义 了 
一 种 不 同 的 ADT. 

Java 类 也 考虑 到 ADT 的 实现 , 不 过 适当 地 隐藏 了 实现 的 细节 。 这 样 , 程序 中 需要 对 ADT X 
施 操作 的 任何 其 他 部 分 可 以 通过 调用 适当 的 方法 来 进行 。 如 果 由 于 某 种 原因 需要 改变 实现 的 细 
节 , 那么 通过 仅仅 改变 执行 这 些 ADT 操作 的 例 程 应 该 是 很 容易 做 到 的 。 这 种 改变 对 于 程序 的 其 
余部 分 是 完全 透明 的 。 

对 于 每 种 ADT 并 不 存在 什么 法 则 来 告诉 我 们 必须 要 有 哪些 操作 , 这 是 一 个 设计 决策 。 错 误 
处 理 和 结构 调整 (在 适当 的 地 方 ) 一 般 也 取决 于 程序 的 设计 者 。 本 章 中 将 要 讨论 的 这 三 种 数据 结 
构 是 ADT 的 最 基本 的 例子 。 我 们 将 会 看 到 它们 中 的 每 一 种 是 如 何以 多 种 方法 实现 的 , 不 过 ， 当 
它们 被 正确 地 实现 以 后 , 使 用 它们 的 程序 却 没 有 必要 知道 它们 是 如 何 实 现 的 。 


3.2 表 ADT 


我 们 将 处 理 形 如 Ay, Ai,A,,… ,AN-; 的 一 般 的 表 。 我 们 说 这 个 表 的 大 小 是 N。 我 们 将 大 小 
为 0 的 特殊 的 表 称 为 空 表 (empty list). 

对 于 除 空 表 外 的 任何 表 , 我 们 说 A; 后 继 A; -1{( 或 继 A,_| 之 后 , i < N) 并 称 A; 前驱 AC» 
0)。 表 中 的 第 一 个 元 素 是 Ao, 而 最 后 一 个 元 素 是 AN_i。 我 们 将 不 定义 Au 的 前 驱 元 , 也 不 定义 
Ay - 1 的 后 继 元 。 元 素 A, 在 表 中 的 位 置 为 i+1。 为 了 简单 起 见 , 我 们 假设 表 中 的 元 素 是 整数 , 但 
一 般 说 来 任意 的 复元 素 也 是 允许 的 (而 且 容 易 由 Java 泛 型 类 处 理 )。 

与 这 些 “ 定 义 ” 相 关 的 是 要 在 表 ADT 上 进行 操作 的 集合 。printList 和 makeEmpty 是 常用 的 操 
VE, 其 功能 显而易见 ; find 返回 某 一 项 首次 出 现 的 位 置 ; insert 和 remove 一 般 是 从 表 的 某 个 位 


Download at http:// www.pinb5i.com/ 


Ke RFPS 45 


置 插 和 信和 删除 某 个 元 素 ; 而 findKkth 则 返回 (作为 参数 而 被 指定 的 ) 某 个 位 置 上 的 元 素 。 如 果 34, 
12,52,16,12 是 一 个 表 , 则 find(52) 会 返回 2; insert (x, 2) n] ERM 34,12, x, 52,16, 12 CB RK 
们 插入 到 给 定位 置 上 的 话 ); 而 remove(52) 则 又 将 该 表 变 为 34,12,x,16,12。 

MER, 一 个 方法 的 功能 怎样 才 算 恰当 , 完全 要 由 程序 设计 者 来 确定 , 就 像 对 特殊 情况 的 处 理 
那样 (例如 ,， 上述 find(1) 返 回 什 么 ?)。 我 们 还 可 以 添加 一 些 操作 ,比如 next 和 previous, 它们 会 
取 一 个 位 置 作为 参数 并 分 别 返 回 其 后 继 元 和 前 驱 元 的 位 置 。 

3.2.1 表 的 简单 数组 实现 

对 表 的 所 有 这 些 操作 都 可 以 通过 使 用 数组 来 实现 。 虽 然 数 组 是 由 固定 容量 创建 的 , 但 在 需 
要 的 时 候 可 以 用 双 倍 的 容量 创建 一 个 不 同 的 数组 。 它 解决 由 于 使 用 数组 而 产生 的 最 严重 的 问题 ， 
即 从 历史 上 看 为 了 使 用 一 个 数组 , 需要 对 表 的 大 小 进行 估计 。 而 这 种 估计 在 Java 或 任何 现代 编 
程 语言 中 都 是 不 需要 的 。 下 列 程序 段 解 释 一 个 数组 arr 在 必要 的 时 候 如 何 被 扩展 (其 初始 长 度 
为 10): 


int [ ] arr = new int[ 10 ]; 


// 下 面 我 们 决定 需要 扩大 arr. 

int [ ] newArr = new int[ arr.length * 2 J; 

for( int i = 0; i « arr.length; i++ ) 
newArr[ i ] = arr[ i J; 

arr = newArr; 


数组 的 实现 可 以 使 得 printList 以 线性 时 间 被 执行 , 而 findkth 操作 则 花费 常数 时 间 , 这 正 
是 我 们 所 能 够 预期 的 。 不 过 , 插 人 和 删除 的 花费 却 潜藏 着 昂贵 的 开销 , 这 要 看 插入 和 删除 发 生 在 
什么 地 方 。 最 坏 的 情形 下 , 在 位 置 0 的 插入 ( 即 在 表 的 前 端 插 人 ) 首 先 需 要 将 整个 数组 后 移 一 个 位 
置 以 空 出 空间 来 ， 而 删除 第 一 个 元 素 则 需要 将 表 中 的 所 有 元 素 前 移 一 个 位 置 , 因此 这 两 种 操作 的 
最 坏 情 况 为 O(N)。 平 均 来 看 , 这 两 种 操作 都 需要 移动 表 的 一 半 的 元 素 , 因此 仍然 需要 线性 时 
间 。 男 一 方面 , 如 果 所 有 的 操作 都 发 生 在 表 的 高 端 , 那 就 没有 元 素 需 要 移动 , 而 添加 和 删除 则 只 
花费 O(1) 时 间 。 

存在 许多 情形 , 在 这 些 情形 下 的 表 是 通过 在 高 端 进行 插入 操作 建成 的 , 其 后 只 发 生 对 数组 的 
访问 ( 即 只 有 findKth 操作 )。 在 这 种 情况 下 , 数组 是 表 的 一 种 恰当 的 实现 。 然 而 ， 如果 发 生 对 表 
的 一 些 插入 和 删除 操作 , 特别 是 对 表 的 前 端 进行 , 那么 数组 就 不 是 一 种 好 的 选择 。 下 一 节 处 理 另 
一 种 数据 结构 : 链表 (linked list). 
3.2.2 简单 链表 

为 了 避免 插入 和 删除 的 线性 开销 , 我 们 需要 保证 表 可 以 不 连续 存储 ,否则 表 的 每 个 部 分 都 可 
能 需要 整体 移动 。 图 3-1 指出 链表 的 一 般 想 法 。 


[4 3-9 e ]3- S Me pp EE pne To 
图 3-1 一 个 链表 


链表 由 一 系列 节点 组 成 , 这 些 节点 不 必 在 内 存 中 相连 。 每 一 个 节点 均 含 有 表 元 素 和 到 包含 
该 元 素 后 继 元 的 节点 的 链 (link)。 我 们 称 之 为 next 链 。 最 后 一 个 单元 的 next 链 引用 null, 

为 了 执行 printList 或 find(x) ， 只 要 从 表 的 第 一 个 节点 开始 然后 用 一 些 后 继 的 next 链 遍 历 
该 表 即 可 。 这 种 操作 显然 是 线性 时 间 的 ， 和 在 数组 实现 时 一 样 , 不 过 其 中 的 常数 可 能 会 比 用 数组 
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实现 时 要 大 。findgth 操 作 不 恕 数组 实现 时 的 效率 高 ; findgth(i) 花 费 O(i) 的 时 间 并 以 这 种 明显 的 
方式 遍历 链表 而 完成 。 在 实践 中 这 个 界 是 保守 的 , 因为 调用 findkth 常常 是 以 ( 按 让 排序 后 的 方式 
进行 。 例 如 ,findKkth(2) , findkth(3) ,findKth(4) 以 及 findkth(6) 可 通过 对 表 的 一 次 扫描 同时 实现 。 

remove 方法 可 以 通过 修改 一 个 next 引用 来 实现 。 图 3-2 给 出 在 原 表 中 删除 第 三 个 元 素 的 结果 。 





3-2 ”从 链表 中 删除 


insert 方法 需要 使 用 new 操作 符 从 系统 取得 一 个 新 节点 , 此 后 执行 两 次 引用 的 调整 。 其 一 
般 想法 在 图 3-3 中 给 出 , 其 中 的 虚线 表示 原来 的 next 引用 。 





图 3-3 向 链表 插入 


我 们 看 到 , 在 实践 中 如 果 知 道 变动 将 要 发 生 的 地 方 , 那么 向 链表 插入 或 从 链表 中 删除 一 项 的 
操作 不 需要 移动 很 多 的 项 , 而 只 涉及 常数 个 节点 链 的 改变 。 

在 表 的 前 端 添加 项 或 删除 第 一 项 的 特殊 情形 此 时 也 属于 常数 时 间 的 操作 ， 当 然 要 假设 到 链 
表 前 端的 链 是 存在 的 。 只 要 我 们 拥有 到 链表 最 后 节点 的 链 , 那么 在 链表 末尾 进行 添加 操作 的 特 
殊 情 形 ( 即 让 新 的 项 成 为 最 后 一 项 ) 可 以 花费 常数 时 间 。 因 此 , 典型 的 链表 拥有 到 该 表 两 端的 链 。 
删除 最 后 一 项 比较 复杂 ， 因 为 必须 找 出 指向 最 后 节点 的 项 , CH next 链 改 成 null, 然后 再 更 
新 持 有 最 后 节点 的 链 。 在 经 典 的 链表 中 , 每 个 节点 均 存 储 到 其 下 一 节点 的 链 , 而 拥有 指向 最 后 节 
点 的 链 并 不 提供 最 后 节点 的 前 驱 节 点 的 任何 信息 。 

保留 指向 最 后 节点 的 节点 的 第 3 个 链 的 想法 行 不 通 , 因为 它 在 删除 操作 期 间 也 需要 更 新 。 
我 们 的 做 法 是 ,让 每 一 个 节点 持 有 一 个 指向 它 在 表 中 的 前 驱 节点 的 链 ， 如 图 3-4 所 示 , 我 们 称 之 
为 双 链 表 (doubly linked list). 





3.4 MER 


3.3 Java Collections API 中 的 表 


在 类 库 中 , Java 语言 包含 有 一 些 普通 数据 结构 的 实现 。 该 语言 的 这 一 部 分 通常 叫做 Collec- 
tions API。 表 ADT 是 在 Collections API 中 实现 的 数据 结构 之 一 。 我 们 将 在 第 4 章 看 到 其 他 一 些 
数据 结构 。 

3.3.1 Collection 接口 

Collections API 位 于 java. util 包 中 。 集 合 (collection) 的 概念 在 Collection 接口 中 得 到 抽象 ， 

它 存储 一 组 类 型 相同 的 对 象 。 图 3-5 显示 该 接口 一 些 最 重要 的 部 分 (但 一 些 方法 未 被 显示 )。 
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public interface Collection<AnyType> extends Iterable<AnyType> 
{ 


int size( ); 
boolean isEmpty( ); 


1 
2 
4 
4 
5 void clear( ); 

6 boolean contains( AnyType x ); 

7 boolean add( AnyType x ); 

8 boolean remove( AnyType x ); 

9 java.util.Iterator«AnyType» iterator( ); 
0 o) 





图 3-5 java.util 包 中 Collection 接口 的 子 集 


在 Collection 接口 中 的 许多 方法 所 做 的 工作 由 它们 的 英文 名 称 可 以 看 出 , 因此 size 返回 集 
合 中 的 项 数 ; isEmpty 返回 tree 当 且 仅 当 集合 的 大 小 为 0。 如 果 x 在 集合 中 , 则 contains 返回 
true。 注 意 , 这 个 接口 并 不 规定 集合 如 何 决 定 x 是 否 属于 该 集合 一 一 这 要 由 实现 该 Collection 
接口 的 具体 的 类 来 确定 。add 和 remove 从 集合 中 添加 和 删除 x, 如 果 操 作成 功 则 返回 true, WR 
因 某 个 看 似 有 理 ( 非 异常 ) 的 原因 失败 则 返回 false。 例 如 ,如 果 要 删除 的 项 不 在 集合 中 , 则 re 
move 可 能 失败 ， 而 如 果 特 定 的 集合 不 允许 重复 , 那么 当 企图 插 人 一 项 重复 项 时 ，add 操作 就 可 能 
失败 。 

Collection 接口 扩展 了 Iterable 接口 。 实 现 Iterable 接口 的 那些 类 可 以 拥有 增强 的 for 循 
PR, 该 循环 施 于 这 些 类 之 上 以 观察 它们 所 有 的 项 。 例 如 , 图 3-6 中 的 例 程 可 以 用 来 打印 任意 集合 
中 的 所 有 的 项 。 这 种 方式 的 print 的 实现 和 当 coll 具有 类 型 AnyTypel ] 时 能 够 使 用 的 相应 的 实现 
是 完全 相同 的 , 它们 逐个 字符 都 是 一 样 的 。 


public static <AnyType> void print( Collection<AnyType> col] ) 


for( AnyType item : coll ) 
System.out.printin( item ); 





3-6 在 Iterable 类 型 上 使 用 增强 的 for 循环 


3.3.2 Iterator 接口 
实现 Iterable 接口 的 集合 必须 提供 一 个 称 为 iterator 的 方法 , 该 方法 返回 一 个 Iterator 类 
型 的 对 象 。 该 Iterator 是 一 个 在 java.util 包 中 定义 的 接口 , 见 图 3-7。 
iid interface Iterator<AnyType> 


boolean hasNext( ); 


AnyType next( ); 
void remove( ); 





图 3-7 java.util 包 中 的 Iterator 接口 


Iterator 接口 的 思路 是 , 通过 iterator 方法 , 每 个 集合 均 可 创建 并 返回 给 客户 一 个 实现 t- 
erator 接口 的 对 象 , 并 将 当前 位 置 的 概念 在 对 象 内 部 存储 下 来 。 

每 次 对 next 的 调用 都 给 出 集合 的 (尚未 见 到 的 ) 下 一 项 。 因 此 , 第 1 次 调用 next 给 出 第 1 
Hi, 第 2 次 调用 给 出 第 2 项 , 等 等 。hasNext 用 来 告诉 是 否 存 在 下 一 项 。 当 编译 器 见 到 一 个 正在 
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用 于 Iterable 的 对 象 的 增强 的 for 循环 的 时 候 , 它 用 对 iterator 方法 的 那些 调用 代替 增强 的 
for 循环 以 得 到 一 个 Iterator 对 象 , 然后 调用 next 和 hasNext。 因 此 , 前 面 看 到 的 print 例 程 由 
编译 器 重 写 ， 见 图 3-8 所 示 。 


public static «AnyType» void print( Collection<AnyType> coll ) 
( 
Iterator«AnyType» itr = coll.iterator( ); 
while( itr.hasNext( ) ) 
{ 
AnyType item = itr.next( ); 
System.out .println( item ); 


) 


1 
2 
3 
4 
5 
6 
7 
8 
9 





) 


图 3-8 通过 编译 器 使 用 一 个 迭代 器 改写 的 Iterable 类 型 上 的 增强 的 for 循环 


由 于 Iterator 接口 中 的 现 有 方法 有 限 ， 因 此 , 很 难 使 用 Iterator 做 简单 遍历 Collection 以 
外 的 任何 工作 。Iterator 接口 还 包含 一 个 方法 , 叫做 remove。 该 方法 可 以 删除 由 next 最 新 返回 
的 项 (此 后 , 我 们 不 能 再 调用 remove, 直到 对 next 再 一 次 调用 以 后 )。 虽 然 Collection 接口 也 包 
含 一 个 remove 方 法 , 但 是 , 使 用 Iterator 的 remove 方法 可 能 有 更 多 的 优点 。 

Iterator 的 remove 方法 的 主要 优点 在 于 , Collection 的 remove 方法 必须 首先 找 出 要 被 删除 
的 项 。 如 果 知 道 所 要 删除 的 项 的 准确 位 置 , 那么 删除 它 的 开销 很 可 能 要 小 得 多 。 下 一 节 我 们 将 
要 看 到 一 个 例子 , 是 在 集合 中 每 隔 一 项 删除 一 项 。 这 个 程序 用 迭代 器 (iterator) 很 容易 编写 , mE 
比 用 Collection 的 remove 方法 潜藏 着 更 高 的 效率 。 

当 直 接 使 用 Iterator( 而 不 是 通过 一 个 增强 的 for 循环 间接 使 用 ) 时 , 重要 的 是 要 记 住 一 个 基 
本 法 则 : 如 果 对 正在 被 迭代 的 集合 进行 结构 上 的 改变 ( 即 对 该 集合 使 用 add, remove 或 clear 方 
法 )， 那 么 和 迭代 器 就 不 再 合法 (并 且 在 其 后 使 用 该 迭代 器 时 将 会 有 ConcurrentModi- 
ficationException 异常 被 抛 出 )。 为 避免 迭代 器 准备 给 出 某 一 项 作为 下 一 项 (next item) 而 该 项 此 
后 或 者 被 删除 , 或 者 也 许 一 个 新 的 项 正好 插入 该 项 的 前 面 这 样 一 些 讨厌 的 情形 , 有 必要 记 住 上 述 
法 则 。 这 意味 着 ， 只 有 在 需要 立即 使 用 一 个 迭代 器 的 时 候 , 我 们 才 应 该 获取 迭代 器 。 然 而 , 如 果 
迭代 器 调用 了 它 自 己 的 remove 方法, 那么 这 个 迭代 器 就 仍然 是 合法 的 。 这 是 有 时 候 我 们 更 愿意 
使 用 和 迭代 器 的 remove 方法 的 第 二 个 原因 。 

3.3.3 List HO, ArrayList 类 和 LinkedList 类 

本 节 跟 我 们 关系 最 大 的 集合 就 是 表 (list), t HI java.util 包 中 的 List 接口 指定 。List 接口 
继承 了 Collection 接口 , 因此 它 包含 Collection 接口 的 所 有 方法 , 外 加 其 他 一 些 方法 。 图 3-9 解 
释 其 中 最 重要 的 一 些 方法 。 


public interface List<AnyType> extends Collection<AnyType> 


AnyType get( int idx ); 
AnyType set( int idx, AnyType newVal ); 


] 
2 
3 
4 
3 void add( int idx, AnyType x ); 
6 void remove( int idx ); 

7 

8 

9 


ListIterator«AnyType» listIterator( int pos ); 
} 





图 3-9 ^4 java.util 中 List 接口 的 子 集 
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get 和 set 使 得 用 户 可 以 访问 或 改变 通过 由 位 置 索 引 idx 给 定 的 表 中 指定 位 置 上 的 项 。 索 引 
0 位 于 表 的 前 端 , 索引 sizeO - 1 代表 表 中 的 最 后 一 项 , 而 索引 sizeC ) 则 表示 新 添加 的 项 可 以 被 
放置 的 位 置 。add 使 得 在 位 置 idx 处 置信 一 个 新 的 项 (并 把 其 后 的 项 向 后 推移 一 个 位 置 )。 于 是 ， 
在 位 置 0 处 add 是 在 表 的 前 端 进 行 的 添加 , 而 在 位 置 size() 处 的 add 是 把 被 添加 项 作为 新 的 最 后 
项 添 人 表 中 。 除 以 AnyType 作为 参数 的 标准 的 remove 外 ，remove 还 被 重 载 以 删除 指定 位 置 上 的 
项 。 最 后 , List 接口 指定 listIterator 方法 , 它 将 产生 比 通 常 认为 的 还 要 复杂 的 迭代 器 。Lis- 
tIterator 接口 将 在 3.3.5 节 讨 论 。 

List ADT 有 两 种 流行 的 实现 方式 。ArrayList 类 提供 了 List ADT 的 一 种 可 增长 数组 的 实现 。 
使 用 ArrayList 的 优点 在 于 , 对 get 和 set 的 调用 花费 常数 时 间 。 其 缺点 是 新 项 的 插入 和 现 有 项 
的 删除 代价 昂贵 ,除非 变动 是 在 ArrayList 的 末端 进行 。LinkedList 类 则 提供 了 List ADT 的 双 
链表 实现 。 使 用 LinkedList 的 优点 在 于 , 新 项 的 插 人 和 现 有 项 的 删除 均 开 销 很 小 , 这 里 假设 变 
动 项 的 位 置 是 已 知 的 。 这 意味 着 ,在 表 的 前 端 进行 添加 和 删除 都 是 常数 时 间 的 操作 ,由 此 
LinkedList 更 提供 了 方法 addFirst 和 removeFirst, addLast 和 removeLast、 以 及 getFirst 和 
getLast 等 以 有 效 地 添加 、 删 除 和 访问 表 两 端的 项 。 使 用 LinkedList 的 缺点 是 它 不 容易 作 索 引 ， 
因此 对 get 的 调用 是 昂贵 的 , 除非 调用 非常 接近 表 的 端点 (如 果 对 get 的 调用 是 对 接近 表 后 部 的 
项 进行 , 那么 搜索 的 进行 可 以 从 表 的 后 部 开始 )。 为 了 看 出 差别 , 我 们 考察 对 一 个 List 进行 操作 
的 某 些 方法 。 首 先 , 设 我 们 通过 在 末端 添加 一 些 项 来 构造 一 个 Listo 


public static void makeListl( List«Integer» Ist, int N ) 
{ 
Ist.clear( ); 
for( int i = 0; i < N; i++ ) 
Ist.add( i ); 
) 


A ArrayList 还 是 LinkedList 作为 参数 被 传递 ,makeList1l 的 运行 时 间 都 是 O(N), 因为 
对 add 的 每 次 调用 都 是 在 表 的 末端 进行 从 而 均 花 费 常数 时 间 ( 可 以 忽略 对 ArrayList 偶尔 进行 的 
扩展 )。 男 一 方面 , 如 果 我 们 通过 在 表 的 前 端 添 加 一 些 项 来 构造 一 个 List: 


public static void makeList2( List<Integer> Ist, int N ) 
{ 
Ist.clear( ); 
for( int i = 0; i < N; i++ ) 
Ist.add( 0, i ); 
} 


那么 , 对 于 LinkedList 它 的 运行 时 间 是 O(N), 但 是 对 于 ArrayList 其 运行 时 间 则 是 O(N?), 因 
为 在 ArrayList "P, 在 前 端 进行 添加 是 一 个 O(NN) 操 作 。 
下 一 个 例 程 是 计算 List 中 的 数 的 和 : 


public static int sum( List<Integer> 1st ) 
{ 
int total = 0; 
for( int i = 0; i < N; i++) 
total += Ist.get( i ); 
} 


XE, ArrayList 的 运行 时 间 是 O(N), 但 对 于 LinkedList 来 说 , 其 运行 时 间 则 是 O(N?), 因为 
在 LinkedList 中 , 对 get 的 调用 为 O(N) 操 作 。 可 是 ,要 是 使 用 一 个 增强 的 for 循环 , 那么 它 对 
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任意 List 的 运行 时 间 都 是 O(N), 因为 迭代 器 将 有 效 地 从 一 项 到 下 一 项 推进 。 

对 搜索 而 言 ，ArrayList 和 LinkedList 都 是 低 效 的 , 对 Collection 的 contains 和 remove 两 
个 方法 (它们 都 以 AnyType 为 参数 ) 的 调用 均 花 费 线 性 时 间 。 

在 ArrayList 中 有 一 个 容量 的 概念 , 它 表示 基础 数组 的 大 小 。 在 需要 的 时 候 ，ArrayList 将 
自动 增加 其 容量 以 保证 它 至 少 具有 表 的 大 小 。 如 果 该 大 小 的 早期 估计 存在 , 那么 ensureCapacity 
可 以 设置 容量 为 一 个 足够 大 的 量 以 避免 数组 容量 以 后 的 扩展 。 再 有 ，trimToSize 可 以 在 所 有 的 
ArrayList 添加 操作 完成 之 后 使 用 以 避免 浪费 空间 。 

3.3.4 Bj: remove 方法 对 LinkedList 类 的 使 用 

作为 一 个 例子 , 我 们 提供 一 个 例 程 , 将 一 个 表 中 所 有 具有 偶数 值 的 项 删除 。 于 是 ,如 果 表 包 
& 6,5,1,4,2, 则 在 该 方法 调用 之 后 , 表 中 仅 有 元 率 5,1。 

当 遇 到 表 中 的 项 时 将 其 从 表 中 删除 的 算法 有 刀 种 可 能 的 想法 : 当然 , 一 种 想法 是 构造 一 个 包 
含 所 有 的 奇数 的 新 表 , 然后 清除 原 表 , 并 将 这 些 奇 数 拷贝 回 原 表 。 不 过 , 我 们 更 有 兴趣 的 是 写 一 
个 干净 的 避免 拷贝 的 表 , 并 在 遇 到 那些 偶数 值 的 项 时 将 它们 从 表 中 删除 。 | 

对 于 ArrayList 这 几乎 就 是 一 个 失败 策略 。 因 为 从 一 个 ArrayList 的 几乎 是 任意 的 地 方 进 行 
删除 都 是 昂贵 的 操作 。 不 过 , 在 LinkedList 中 却 存在 某 种 希望 , 因为 我 们 知道 , 从 已 知 位 置 的 删 
除 操 作 都 可 以 通过 重新 安排 某 些 链 而 被 有 效 地 完成 。 

图 3-10 显示 第 一 种 想法 。 在 一 个 ArrayList L, 我 们 知道 ,remove 的 效率 不 是 很 高 的 , 因此 
该 程序 花费 的 是 二 次 时 间 。LinkedList 暴露 两 个 问题 。 首 先 , 对 get 调用 的 效率 不 高 , 因此 例 程 
花费 二 次 时 间 。 而 且 , 对 remove 的 调用 同样 地 低 效 , 因为 达到 位 置 i 的 代价 是 昂贵 的 。 


public static void removetvensVerl( List<Integer> Ist ) 
{ 
int i = 0; 
while( i < Ist.size( ) ) 
if( Ist.get{ i ) $2 == 0) 
lst. remove{ i ); 
else 
itti 


l 
2 
3 
4 
5 
6 
7 
8 
9 





图 3-10 ”删除 表 中 的 偶数 : 算法 对 所 有 类 型 的 表 都 是 二 次 的 


图 3-11 显示 矫正 该 问题 的 一 种 思路 。 我 们 不 是 用 get, 而 是 使 用 一 个 迭代 器 一 步 步 遍历 该 
表 。 这 是 高 效率 的 。 但 是 我 们 使 用 Collection 的 remove 方法 来 删除 一 个 偶数 值 的 项 。 这 不 是 高 
效 的 操作 ， 因 为 remove 方法 必须 再 次 搜索 该 项 , 它 花费 线性 时 间 。 但 是 我 们 运行 这 个 程序 会 发 
现 情况 更 糟 : 该 程序 产生 一 个 异常 ,因为 当 一 项 被 删除 时 ， 由 增强 的 for 循环 所 使 用 的 基础 迭代 
器 是 非法 的 。( 图 3-10 中 的 代码 解释 为 什么 这 样 的 原因 : 我 们 不 能 期 待 增强 的 for 循环 懂得 只 有 
当 一 项 不 被 删除 时 它 才 必须 向 前 推进 。) 


public static void removeEvensVer2( List<Integer> Ist ) 
{ 


for( Integer x : 1st ) 


if( x $2220) 
Ist.remove( x ); 





图 3-11 删除 表 中 的 偶数 : 由 于 ConcurrentModificationException 异常 而 无 法 运行 
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图 3-12 指出 一 种 成 功 的 想法 : 在 迭代 器 找到 一 个 偶数 值 项 之 后 , 我 们 可 以 使 用 该 迭代 器 来 
删除 这 个 它 刚 看 到 的 值 。 对 于 一 个 LinkedList, 对 该 迭代 器 的 remove 方 法 的 调用 只 花费 常数 时 
là], 因为 该 迭代 器 位 于 需要 被 删除 的 节点 (或 在 其 附近 )。 因 此 ,对 于 LinkedList, 整个 程序 花费 
线性 时 间 , 而 不 是 二 次 时 间 。 对 于 一 个 ArrayList， 即 使 迭代 器 位 于 需要 被 删除 的 节点 上 , 其 re- 
move 方法 仍然 是 昂贵 的 , 因为 数组 的 项 必须 要 移动 , 正如 所 料 , 对 于 ArrayList, 整个 程序 仍然 花 
费 二 次 时 间 。 








public static void removeEvensVer3( List<Integer> Ist ) 


( 







Iterator<Integer> itr = lst.iterator( ); 


while( itr.hasNext( ) ) 
if( itr.next( ) $2 == 0) 
itr.remove( ); 


Go ~ AU -h UG — 


图 3-12 ”删除 表 中 的 偶数 : 对 ArrayList 是 二 次 的 , 但 对 LinkedList 是 线性 的 


如 果 我 们 传递 一 个 LinkedList < Integer > 运行 图 3-12 中 的 程序 ， 对 于 一 个 400 000 项 的 
lst, 花费 的 时 间 是 0.031 Eb, 而 对 于 一 个 800 000 项 的 LinkedList 则 花费 0.062 秒 , 显然 这 是 线 
性 时 间 例 程 ， 因为 运行 时 间 与 输入 大 小 增加 相同 的 倍数 。 当 我 们 传递 一 个 ArrayList< Integer > 
时 ,对 于 一 个 400 000 项 的 ArrayList 程序 几乎 花费 2.5 分 钟 , 而 对 于 800 000 项 的 ArrayList 程 
序 花 费 大 约 10 分 钟 ; 当 输入 增加 到 2 倍 时 运行 时 间 增 加 到 4 倍 , 这 与 二 次 的 特征 是 一 致 的 。 
3.3.5 关于 ListIterator 接口 

图 3.13 指出 , ListIterator 扩展 了 List 的 Iterator 的 功能 。 方 法 previous 和 hasPrevious 
使 得 对 表 从 后 向 前 的 遍历 得 以 完成 。add 方法 将 一 个 新 的 项 以 当前 位 置 放 人 表 中 。 当 前 项 的 概念 
通过 把 迭代 器 看 做 是 在 对 next 的 调用 所 给 出 的 项 和 对 previous 的 调用 所 给 出 的 项 之 间 而 抽象 出 
来 的 。 图 3-14 解释 了 这 种 抽象 。 对 于 LinkedList 来 说 , add 是 一 种 常数 时 间 的 操作 , 但 对 于 ar- 
rayList 则 代价 昂贵 。set 改变 被 迭代 器 看 到 的 最 后 一 个 值 ， 从 而 对 LinkedList 很 方便 。 例 如 ， 
它 可 以 用 来 从 List 的 所 有 的 偶数 中 减 去 1, 而 这 对 于 LinkedList 来 说 , 不 使 用 ListIterator 的 
set 方法 是 很 难 做 到 的 。 


public interface ListIterator«AnyType» extends Iterator<AnyType> 
{ 


boolean hasPrevious( ); 
AnyType previous( ); 


void add( AnyType x ); 
void set( AnyType newVal ); 





图 3-13 java.util 包 中 ListIterator 接口 的 子 集 
dads ial) bib: 


| a) b) c) 


图 3-14 a) 正常 起 始点 : next 返回 5, previous 是 非法 的 ， 而 add 则 
把 项 放 在 5 Bil; b) next AP 8, previous 返回 5, 而 add 则 把 项 添加 在 
5 和 8 之 间 ; c) next JẸ}, previous 返回 9, 而 add 则 把 项 置 于 9 后 
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3.4 ArrayList 类 的 实现 


在 这 一 节 , 我 们 提供 便于 使 用 的 ArrayList 泛 型 类 的 实现 。 为 避免 与 类 库 中 的 类 相 泥 , 这 里 
将 把 我 们 的 类 叫做 MyArrayList。 我 们 不 提供 MyCollection 或 MyList 接口 ; MyArrayList 是 独立 
的 。 在 考查 MyarrayList 代码 (接近 100 行 ) 之 前 , 先 概括 主要 的 细节 。 

1. MyArrayList 将 保持 基础 数组 , 数组 的 容量 , 以 及 存储 在 MyArrayList 中 的 当前 项 数 。 

2. MyArrayList 将 提供 一 种 机 制 以 改变 基础 数组 的 容量 。 通 过 获得 一 个 新 数组 , HS 
贝 到 新 数组 中 来 改变 数组 的 容量 , 允许 虚拟 机 回收 老 数 组 。 

3. MyArrayList 将 提供 get 和 sec 的 实现 。 

4. MyArrayList 将 提供 基本 的 例 程 , 如 size, isEmpty 和 clear, 它们 是 典型 的 单行 程序 ; 还 
提供 remove, 以 及 两 种 不 同 版 本 的 add。 如 果 数 组 的 大 小 和 容量 相同 , 那么 这 两 个 add 例 程 将 增 
加 容量 。 

5. MyArrayList 将 提供 一 个 实现 Iterator 接口 的 类 。 这 个 类 将 存储 迭代 序列 中 的 下 一 项 的 
FER, 并 提供 next, hasNext 和 remove 等 方法 的 实现 。MyarrayList 的 迭代 器 方法 直接 返 何 实现 
Iterator 接口 的 该 类 的 新 构造 的 实例 。 

3.4.1 基本 类 

图 3-15 和 图 3-16 显示 MyArrayList 类 。 像 它 的 Collections API 的 对 应 类 一 样 , 存在 某 种 错 
误 检 测 以 保证 合理 的 限界 ; 然而 , 为 了 把 精力 集中 在 编写 迭代 器 类 的 基本 方面 , 我 们 不 检测 可 能 
使 得 迭代 器 无 效 的 结构 上 的 修改 , 也 不 检测 非法 的 迭代 器 remove 方法 。 这 些 检测 将 在 此 后 3.5 
节 MyLinkedList 的 实现 中 指出 , 对 于 这 两 种 表 的 实现 它们 是 完全 相同 的 。 

如 5 到 6 行 所 示 , MyArrayList 把 大 小 及 数组 作为 其 数据 成 员 进 行 存 储 。 

从 11 478 38 47, 是 几 个 短 例 程 ， 即 clear, size, trimToSize, inEmpty, get 以 及 set HSE 
现 。 

ensureCapacity 例 程 如 40 行 到 49 行 所 示 。 容 量 的 扩充 是 用 与 早先 描述 的 相同 的 方法 来 完 
成 的 : 第 45 行 存储 对 原始 数组 的 一 个 引用 , 第 46 行 是 为 新 数组 分 配 内 存 , 并 在 第 47 行 和 48 13 
将 旧 内 容 拷贝 到 新 数组 中 。 如 42 行 和 43 行 所 示 , PE ensureCapacity 也 可 以 用 于 收缩 基础 数 
组 , 不 过 只 是 当 指 定 的 新 容量 至 少 和 原 大 小 一 样 时 才 适 用 。 否 则 ，ensureCapacity 的 要 求 将 被 忽 
略 。 在 第 4677, 我 们 看 到 一 个 短语 是 必须 的 ， 因为 泛 型 数组 的 创建 是 非法 的 。 我 们 的 做 法 是 创 
建 一 个 泛 型 类 型 限界 的 数组 , 然后 使 用 一 个 数组 进行 类 型 转换 。 这 将 产生 一 个 编译 器 警告 , 但 在 
泛 型 集合 的 实现 中 这 是 不 可 避免 的 。 

图 中 显示 了 两 个 版 本 的 add。 第 一 个 add 是 添加 到 表 的 末端 并 通过 调用 添加 到 指定 位 置 的 较 
一 般 的 版 本 而 得 以 简单 实现 。 这 种 版 本 从 计算 上 来 说 是 昂贵 的 , 因为 它 需 要 移动 在 指定 位 置 上 
或 指定 位 置 后 面 的 那些 元 素 到 一 个 更 高 的 位 置 上 。add 方 法 可 能 要 求 增加 容量 。 扩 充 容量 的 代价 
是 非常 昂贵 的 , 因此 , 如 果 容 量 被 扩充 , 那么 , 它 就 要 变 成 原来 大 小 的 两 倍 , 以 避免 不 得 不 再 次 
改变 容量 , 除非 大 小 戏剧 性 地 增加 ( + 1 用 于 大 小 是 0 的 情形 )。 

remove 方 法 类 似 于 add, 只 是 那些 位 于 指定 位 置 上 或 指定 位 置 后 的 元 素 向 低位 移动 一 个 位 
置 。 

剩 下 的 例 程 处 理 iterator 方法 和 相关 迭代 器 类 的 实现 。 在 图 3-16 中 由 第 77 TED 96 行 显 
AR. iterator 方法 直接 返回 ArrayListIterator 类 的 一 个 实例 , 该 类 是 一 个 实现 Iterator 接口 的 
类 。ArrayListIterator 存储 当前 位 置 的 概念 , 并 提供 hasNext, next 和 remove 的 实现 。 当 前 位 
置 表示 要 被 查看 的 下 一 元 素 (的 数组 下 标 ), 因此 初始 时 当前 位 置 为 0。 
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public class MyArrayList<AnyType> implements Iterable<AnyType> 


private static final int DEFAULT CAPACITY = 10; 






private int theSize; 
private AnyType [ ] theltems; 


public MyArrayList( ) 
( clear( ); } 


public void clear( ) 


12 { 
13 theSize * 0; 
14 ensureCapacity( DEFAULT CAPACITY ); 


} 





public int size( ) 


18 ( return theSize; } 

19 public boolean isEmpty( ) 
20 ( return size( ) == 0; } 
21 public void trimToSize( ) 


( ensureCapacity( size( ) ); ) 


public AnyType get( int idx ) 


25 { 
26 if( idx < 0 || idx >= size( ) ) 
27 throw new ArrayIndexOutOfBoundsException( ); 


return theItems[ idx ]; 


public AnyType set( int idx, AnyType newVal ) 
32 ( 

33 if( idx « 0 || idx >= size( ) ) 
34 throw new ArrayIndexOutOfBoundsException( ); 
35 AnyType old = theltems[ idx ]; 

36 theltems[ idx ] = newVal; 

37 return old; 


) 


public void ensureCapacity( int newCapacity ) 
41 ( 

42 if( newCapacity « theSize ) 
return; 






AnyType [ ] old = theltems; 
46 theltems = (AnyType []) new Object[ newCapacity ]; 
47 for( int i = 0; i < size( ); i++ ) 

theItems[ i ] = old[ i J; 


图 3-15 MyArrayList 类 (第 一 部 分 , 共 两 部 分 ) 
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第 了 章 































public boolean add( AnyType x ) 





add( size( ), x ); 


53 return true; 

54 } 

55 . 

56 public void add( int idx, AnyType x ) 

57 { 

58 if( theltems.length == size( ) ) 

59 ensureCapacity( size( ) * 2* 1); 
60 for( int i = theSize; i > idx; i-- ) 
61 theltems[ i ] = theltems{ i - 1]; 


theItems[ idx ] = x; 





theSize++; 


) 


public AnyType remove( int idx ) 


68 { 
69 AnyType removedItem = theltems[ idx ]; 
70 for( int i = idx; i < size( ) - 1; i++) 


theItems[ i ] = theItems[ i + 1 ]; 





theSize--; 
74 return removedItem; 


} 


public java.util.Iterator«AnyType» iterator( ) 
{ return new ArrayListIterator( ); ) 


private class ArrayListIterator implements java.util.Iterator<AnyType> 
81 { 
private int current = 0; 





public boolean hasNext( ) 
( return current < size( ); } 


public AnyType next( ) 


88 { 

89 if( !hasNext( ) ) . 

90 throw new java.util.NoSuchElementException( ); 
91 return theItems[ current++ ]; 


) 






public void remove( ) 
( MyArrayList.this.remove( --current ); } 


图 3-16 MyArrayList 类 (第 二 部 分 , 共 两 部 分 ) 
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3.4.2 ERB Java REM ABA 

ArrayListIterator 使 用 一 个 复杂 Java 结构 ,叫做 内 部 类 (inner class)。 显 然 该 类 在 
MyArrayList 类 内 部 被 声明 , 这 是 被 许多 语言 支持 的 特性 。 然 而 , Java 中 的 内 部 类 具有 更 微妙 的 
性 质 。 

为 了 了 解 内 部 类 是 如 何 工作 的 , 图 3-17 描绘 了 和 迭代 器 的 思路 (不 过 , RAR), W Ar- 
rayListlterator 成 为 一 个 顶级 类 。 我 们 只 着 重 讨论 MyarrayList 的 数据 域 、MyarrayList 中 的 
iterator 方法 以 及 ArrayListIterator 类 (而 不 是 它 的 remove 方法 )。 











public class MyArrayList<AnyType> implements Iterable<AnyType> 
( 


private int theSize; 
private AnyType [ ] theItems; 


public java.util.Iterator«AnyType» iterator( ) 
{ return new ArrayListIterator<AnyType>( ); } 
} 
9 class ArrayListIterator<AnyType> implements java.util.Iterator«AnyType» 
10 | ` 
11 private int current - 0; 


13 public boolean hasNext( ) 
14 { return current < size( ); } 
15 public AnyType next( ) 


{ return theltems{ current++ ]; } 


图 3-17 GEARS 1 号 版 本 (但 不 能 使 用 ) : 迭代 器 是 一 个 顶级 类 并 存储 当前 位 置 。 
它 不 能 使 用 是 因为 theItems 和 size( ) 不 是 arrayListIterator 类 的 一 部 分 


在 图 3-17 中 ,ArrayListIterator 是 泛 型 类 , 它 存储 当前 位 置 , 程序 在 next 方法 中 试图 使 用 
当前 位 置 作 为 下 标 访问 数组 元 素 然 后 将 当前 位 置 向 后 推进 。 注 意 , 如 果 arr 是 一 个 数组 , 则 arr 
[idx++ ] 对 数组 使 用 idx, 然后 向 后 推进 idx。 操 作 ++ 在 此 处 存在 问题 。 我 们 这 里 使 用 的 形式 
OY AUB SR ++ 操作 (postfix++ operator)， 此 时 的 ++ 是 在 idx 之 后 进行 的 。 但 在 前 缀 ++ 操作 (pre- 
fix ++ operator) 中 , arr[ ++ idx] 先 推进 idx 然后 再 使 用 新 的 idx 作为 数组 元 素 的 下 标 。 图 3-17 中 
的 问题 在 于 , theItems[ current ++ ] 是 非法 的 , 因为 theItems 不 是 ArrayListlterator 的 一 部 分 ; 
它 是 MyArrayList 的 一 部 分 。 因 此 程序 根本 没有 意义 。 

最 简单 的 解决 方案 见 图 3-18, 不 过 它 也 有 缺点 , 但 是 以 更 微小 的 方式 呈现 。 在 图 3-18 F, 我 
们 通过 让 迭代 器 存储 MyArrayList 的 引用 来 解决 在 迭代 器 中 没有 数组 的 问题 。 这 个 引用 是 第 二 个 
数据 域 , 是 通过 ArrayListIterator 的 一 个 新 的 单 参数 构造 器 而 被 初始 化 的 。 既 然 有 一 个 
MyArrayList 的 引用 , 那么 就 可 以 访问 包含 于 MyarrayList 中 的 数组 域 ( 还 可 得 到 MyArrayList 的 
大 小 , 该 大 小 在 hasNext 中 是 需要 的 )。 

图 3-18 中 的 问题 在 于 ，theItems 是 MyArrayList 中 的 私有 (private) 域 , 而 由 于 ArrayListIt- 
erator 是 一 个 不 同 的 类 , 因此 在 next 方法 中 访问 theItems 是 非法 的 。 最 简单 的 修正 办 法 是 改变 
theItems 在 MyArrayList 中 的 可 见 性 , 从 private 改 成 某 种 稍 宽松 的 可 见 性 (如 public, 或 默认 的 
可 见 性 , 它 也 被 称 为 包 可 见 性 (package visibility))。 不 过 , 这 违反 了 良好 的 面向 对 象 编程 的 基本 
原则 , 它 要 求 数 据 应 尽 可 能 地 隐藏 。 
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public class MyArrayList<AnyType> implements Iterable<AnyType> 
{ 

private int theSize; 

private AnyType [ ] theltems; 


public java.util. Iterator<AnyType> iterator( ) 
{ return new ArrayListIterator<AnyType>( this ); } 
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} 
class ArrayListIterator<AnyType> implements java.util.Iterator<AnyType> 
{ 

private int current = 0; 

private MyArrayList«AnyType» theList; 


public ArrayListIterator( MyArrayList«AnyType» list ) 
( theList = list; ) 


public boolean hasNext( ) 

{ return current < theList.size( ); } 
public AnyType next( ) 

{ return theList.theItems[ current** ]; ) 





图 3-18 和 迭代 器 2 号 版 本 (几乎 能 够 使 用 ) : ERE — DURO HTL RF 
连接 到 MyArrayList 的 链 。 它 不 能 使 用 是 因为 theItems 在 MyArrayList 类 中 是 私有 的 


图 3-19 显示 另 一 种 解决 方案 ,这 种 方案 能 够 正确 运行 : 使 arrayListIterator Wk EH 
(nested class) 。 当 我 们 让 ArrayListIterator 为 一 个 能 套 类 时 , 该 类 将 被 放 和 人 另 一 个 类 (此 时 就 是 
MyArrayList) 的 内 部 , 这 个 类 就 叫做 外 部 类 (outer class)。 我 们 必须 用 static OK Xm C Re EIE; 
若 无 static, 将 得 到 一 个 内 部 类 , 这 有 时 候 好 ,有 时 候 也 不 好 。 艇 套 类 是 许多 编程 语言 的 典型 的 类 
型 。 注 意 , 其 套 类 可 以 被 设计 成 private, 这 很 好 , 因为 此 时 该 嵌 套 类 除 能 够 被 外 部 类 MyArrayList 
访问 外 , 其 他 是 不 可 访问 的 。 更 为 重要 的 是 , 因为 典 套 类 被 认为 是 外 部 类 的 一 部 分 , 所 以 不 存在 产 
生 不 可 见 问 题 : theTtems 是 MyAxrayList 类 的 可 见 成 员 , 因为 next 是 MyArrayList 的 一 部 分 。 

ARRA TREK, 那么 就 可 以 讨论 内 部 类 。 散 套 类 的 问题 在 于 , 在 我 们 的 原始 设计 中 ， 
当 编 写 theItems 而 不 引用 其 所 在 的 MyarrayList 的 时 候 , 代码 看 起 来 还 可 以 , 也 似乎 有 意义 , 但 
却 是 无 效 的 , 因为 编译 器 不 可 能 计算 出 哪个 MyArrayList 在 被 引用 。 要 是 我 们 自己 不 必 明 了 这 一 
点 那 就 好 多 了 , 而 这 恰 是 内 部 类 要 求 我 们 所 要 做 的 。 

当 声 明 一 个 内 部 类 时 ,编译 器 则 添加 对 外 部 类 对 象 的 一 个 隐 式 引用 , 该 对 象 引 起 内 部 类 对 象 
的 构造 。 如 果 外 部 类 的 名 字 是 Outer, 则 隐 式 引用 就 是 Outer.this。 因 此 ,如 果 ArrayListIter- 
ator 是 作为 一 个 内 部 类 被 声明 且 没 有 注 明 static, 那么 MyArrayList.this 和 theList 就 都 会 引 
用 同一 个 MyarrayList。 这 样 ，theList 就 是 多 余 的 , 并 可 能 被 删除 。 

在 每 一 个 内 部 类 的 对 象 都 恰好 与 外 部 类 对 象 的 一 个 实例 相关 联 的 情况 下 , 内 部 类 是 有 用 的 。 
在 这 种 情况 下 , 内 部 类 的 对 象 在 没有 外 部 类 对 象 与 其 关联 时 是 永远 不 可 能 存在 的 。 对 于 
MyArrayList 及 其 迭代 器 的 情形 , 图 3-20 指出 了 MyArrayList 类 和 和 迭代 器 之 间 的 关系 ,此 时 这 些 
内 部 类 都 用 来 实现 该 迭代 器 。 

theList. theItems 的 使 用 可 以 由 MyArrayList. this. theItems 代替 。 这 很 难说 是 一 种 改进 ， 
但 进一步 的 简化 还 是 可 能 的 。 正 如 this. data 可 以 简写 为 data 一 样 ( 假 设 不 存在 引起 冲突 的 也 叫 
做 data 的 另外 的 变量 )，MyArrayList. this. theItems 可 以 简写 为 theItems。 图 3-21 指出 Ar- 
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rayListlterator 的 简化 。 


public class MyArrayList<AnyType> implements Iterable<AnyType> 
{ 

private int theSize; 

private AnyType [ ] theltems; 


public java.util. Iterator<AnyType> iterator( ) 
{ return new ArrayListIterator<AnyType>( this ); } 


private static class ArrayListIterator<AnyType> 
implements java.util. 1terator<AnyType> 


{ 
private int current = 0; 
private MyArrayList<AnyType> theList; 


public ArrayListIterator( MyArrayList<AnyType> list ) 
{ thelist = list; } 


public boolean hasNext( ) 

{ return current < theList.size( ); } 
public AnyType next( ) 

{ return theList.theItems[ current++ ]; } 





3-19. 和 迭代 器 3 号 版 本 (能 够 使 用 ) : 迭代 器 是 一 个 谋 套 类 并 存储 当前 位 置 和 一 个 连接 到 
MyArrayList 的 链 。 它 能 够 使 用 是 因为 该 椒 套 类 被 认为 是 MyarrayList 类 的 一 部 分 





items:3,5,2 
theSize:3 


Ist 


My Array List.this 
current=3 


itrl itr2 
图 3-20 带 有 内 部 类 的 迭代 器 /容器 

首先 ， ArrayListIterator 是 隐 式 的 泛 型 类 ,因为 它 现在 依赖 于 MyArrayList， 而 后 者 是 泛 型 
的 ; 我 们 可 以 不 必 说 这 些 。 

其 次 , theList HAT, 我 们 用 size( ) 和 theItems[ current ++ ] 作 为 MyArrayList.this.size 
() 和 MyArrayList. this. theItems[current++ ] 的 简 记 符 。theList 作为 数据 成 员 , 它 的 去 除 也 删 
除了 相关 的 构造 器 , 因此 程序 又 转变 成 1 号 版 本 的 样式 。 

我 们 可 以 通过 调用 MyArrayList 的 remove 来 实现 迭代 器 的 remove 方法 。 由 于 迭代 器 的 re- 
move 可 能 与 MyArrayList 的 remove 冲突 ,因此 我 们 必须 使 用 MyArrayList. this. remove。 注 意 ， 
在 该 项 被 删除 之 后 , 一 些 元 素 舌 要 移动 , 因此 current 被 视 为 同一 元 素 也 必须 移动 。 于 是 , RN 
使 用 -- 而 不 是 -1。 | 

内 部 类 为 Java 程序 员 带 来 句法 上 的 便利 。 它 们 不 需要 编写 任何 Java 代码 , 但 是 它们 在 语言 
中 的 出 现 使 Java 程序 员 以 自然 的 方式 (如 1 号 版 本 那样 ) 编 写 程序 , 而 编译 器 则 编写 使 内 部 类 对 
象 和 外 部 类 对 象 相 关联 所 需要 的 附加 代码 。 







MyArrayList.this 
current=0 
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public class MyArrayList<AnyType> implements Iterable«AnyType» 


private int theSize; 
private AnyType [ ] theltems; 


public java.util.Iterator«AnyType» iterator( ) 
( return new ArrayListIterator( ); ] 


private class ArrayListIterator implements java.util.Iterator«AnyType» 


{ 


private int current = 0; 


public boolean hasNext( ) 
{ return current < size( ); } 
public AnyType next( ) 
{ return theItems[ current++ ]; ) 
public void remove( ) 
( MyArrayList.this.remove( --current ); ] 





图 3-21 和 迭代 器 4 号 版 本 (能 够 使 用 ): 和 迭代 器 是 一 个 内 部 类 
并 存储 当前 位 置 和 一 个 连接 到 MyarrayList 的 隐 式 链 


3.5 LinkedList 类 的 实现 


本 节 给 出 可 以 使 用 的 LinkedList 泛 型 类 的 实现 。 和 在 ArrayList 类 中 的 情形 一 样 , 我 们 这 里 
的 链表 类 将 叫做 MyLinkedList 以 避免 与 库 中 的 类 相 混 。 

前 面 提 到 LinkedList 将 作为 双 链 表 来 实现 ,而 且 我 们 还 需要 保留 到 该 表 两 端的 引用 。 这 样 
做 可 以 保持 每 个 操作 花费 常数 时 间 的 代价 ,只 要 操作 发 生 在 已 知 的 位 置 。 这 个 已 知 的 位 置 可 以 
是 端点 , 也 可 以 是 由 迭代 器 指定 的 一 个 位 置 (不 过 , 我 们 不 实现 ListIterator, 因此 有 些 代 码 留 
给 读者 去 完成 )。 

在 考虑 设计 方面 , 我 们 将 需要 提供 三 个 类 : 

1. MyLinkedList 类 本 身 , 它 包 含 到 两 端的 链 、 表 的 大 小 以 及 一 些 方法 。 

2. Node 类 , 它 可 能 是 一 个 私有 的 其 套 类 。 一 个 节点 包含 数据 以 及 到 前 一 个 节点 的 链 和 到 下 
一 个 节点 的 链 , 还 有 一 些 适 当 的 构造 方法 。 

3. LinkedListlterator 类 , 该 类 抽象 了 位 置 的 概念 , 是 一 个 私有 类 ,并 实现 接口 Iterator, 
它 提供 了 方法 next, hasNext 和 remove 的 实现 。 

由 于 这 些 和 迭代 器 类 存储 “当前 节点 "的 引用 , 并 且 终 端 标记 是 一 个 合理 的 位 置 , 因此 它 对 于 在 
表 的 终端 创建 一 个 额外 的 节点 来 表示 终端 标记 是 有 意义 的 。 更 进一步 , 我 们 还 能 够 在 表 的 前 端 
创建 一 个 额外 的 节点 , 逻辑 上 代表 开始 的 标记 。 这 些 额 外 的 节点 有 时 候 就 叫做 标记 节点 (sentinel 
node); 特别 地 , 在 前 端的 节点 有 时 候 也 叫做 头 节 点 (header node), 而 在 末端 的 节点 有 时 候 也 叫 作 
尾 节 点 (tail node)。 

使 用 这 些 额 外 节点 的 优点 在 于 , 通过 排除 许多 特殊 情形 极 大 地 简化 了 编码 。 例 如 , 如果 我 们 
不 是 用 头 节点 ,那么 删除 第 1 个 节点 就 变 成 了 一 种 特殊 的 情况 ,因为 在 删除 期 间 我 们 必须 重新 调 
整 链表 的 到 第 1 个 节点 的 链 , 还 因为 删除 算法 一 般 还 要 访问 被 删除 节点 前 面 的 那个 节点 (而 若 无 
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头 节 点 , 则 第 1 个 节点 前 面 没 有 节点 )。 图 3-22 显示 一 个 带 有 头 节点 和 尾 节点 的 双 链 表 。 图 3-23 
显示 一 个 空 链表 。 图 3-24 则 显示 MyLinkedList 类 的 概要 和 部 分 的 实现 。 


ese ete AHT 


32) ”具有 头 节点 和 尾 节 点 的 双 链表 图 3.23 具有 头 节点 和 尾 节 点 的 空 链表 


我 们 在 第 3 行 可 以 看 到 私有 嵌 套 Node 类 声明 的 开头 部 分 。 图 3-25 显示 这 个 由 所 存储 的 一 项 
组 成 的 Node 类 一 一 它 的 连接 到 前 一 个 Node 的 链 和 下 一 个 Node 的 链 , 还 有 一 个 构造 方法 。 所 有 
的 数据 成 员 都 是 公用 的 。 我 们 知道 , 在 一 个 类 中 , 数据 成 员 通 常 是 私有 的 。 然 而 , 在 一 个 嵌 套 类 
中 的 成 员 甚 至 在 外 部 类 中 也 是 可 见 的 。 由 于 Node 类 是 私有 的 , 因此 在 Node 类 中 的 那些 数据 成 员 
的 可 见 性 是 无 关 紧 要 的 ; 那些 MyLinkedList 的 方法 能 够 见 到 所 有 的 Node 数据 成 员 ， 而 
MyLinkedList 外 面 的 那些 类 则 根本 见 不 到 Node 类 。 | 

现在 回 到 图 3-24, 第 44 行 到 第 47 行 包 含 MyLinkedList 的 数据 成 员 , 即 到 头 节点 和 到 昆 节点 
的 引用 。 我 们 也 掌握 一 个 数据 成 员 的 大 小 , 从 而 size 方 法 可 以 以 常数 时 间 实 现 。 在 第 45 行 有 一 
个 附加 的 数据 域 , 用 来 帮助 迭代 器 检测 集合 中 的 变化 。modcount 代表 自从 构造 以 来 对 链表 所 做 
改变 的 次 数 。 每 次 对 add 或 remove 的 调用 都 将 更 新 modCount。 其 想法 在 于 ， 当 一 个 迭代 器 被 建 
立时 , 他 将 存储 集合 的 modCount。 每 次 对 一 个 迭代 器 方法 (nerxt 或 remove) 的 调用 都 将 用 该 链表 
内 的 当前 modCount 检测 在 迭代 器 内 存储 的 modCount, 并 且 当 这 两 个 计数 不 匹配 时 抛 出 一 个 Con- 
currentModificationException 异常 。 

MyLinkedList 类 的 其 余部 分 由 构造 方法 、 和 迭代 器 的 实现 以 及 一 些 方法 组 成 。 许 多 方法 都 只 
是 一 行 代码 。 

图 3-26 中 的 clear 方法 由 构造 方法 调用 。 它 创建 并 连接 头 节 点 和 尾 节 点 , 然后 设置 大 小 为 0。 

在 图 3-24 的 第 41 行 可 以 看 到 私有 内 部 LinkedListIterator 类 的 声明 的 开头 部 分 。 当 我 们 在 
后 面 看 到 其 具体 实现 时 将 讨论 这 些 细节 。 

3-27 解释 一 个 包含 x 的 新 节点 是 如 何 被 拼接 在 由 p 引用 的 一 个 节点 和 p.prev 之 间 的 。 这 
些 节点 链 的 赋值 可 以 描述 如 下 : 


Node newNode = new Node( x, p.prev, p ); // 第 1 步 和 第 2 步 
p.prev.next = newNode; // #34 
p.prev = newNode; // 第 4 步 


第 3 步 和 第 4 步 可 以 合并 , 结果 只 有 两 行 : 
Node newNode = new Node( x, p.prev, p ); // 第 1 步 和 第 2 步 
p.prev = p.prev.next = newNode; // 第 3 步 和 第 4 步 
可 是 这 两 行 还 可 以 合并 , 得 到 : 
p.prev » p.prev.next = new Node( x, p.prev, p ); 
这 就 缩短 了 图 3-28 中 的 例 程 addBefore, 


图 3-29 指出 删除 一 个 节点 的 逻辑 过 程 。 如 果 p 引 用 正在 被 删除 的 节点 , 那么 在 该 节点 被 断 
开 连 接 和 可 以 被 虚拟 机 回收 之 前 只 有 两 个 链 改动 : 

p.prev.next = p.next; 

p.next.prev - p.prev; 


图 3-30 显示 基本 的 私有 remove ME, 该 例 程 包含 上 述 两 行 代码 。 
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public class MyLinkedList<AnyType> implements Iterable<AnyType> 
{ 
private static class Node<AnyType> 
{ /* Figure 3.26 */ } 


public MyLinkedList( ) 
{ clear( ); } 


public void clear( ) 

( /* Figure 3.26 */ } 
public int size( ) 

{ return theSize; } 
public boolean isEmpty( ) 

{ return size( ) == 0; ) 


public boolean add( AnyType x ) 

{ add( size{ ), x ); return true; ) 
public void add( int idx, AnyType x ) 

( addBefore( getNode( idx ), x ); ) 
public AnyType get( int idx ) 

( return getNode( idx ).data; ) 
public AnyType set( int idx, AnyType newVal ) 
{ 

Node<AnyType> p = getNode( idx ); 
AnyType oldVal = p.data; 
p.data = newVal; 
return oldVal; 
} 
public AnyType remove( int idx ) 
{ return remove( getNode( idx ) ); } 


private void addBefore( Node<AnyType> p, AnyType x ) 
{ /* Figure 3.28 */ } 

private AnyType remove( Node<AnyType> p ) 
( /* Figure 3.30 */ ) 

private Node<AnyType> getNode( int idx ) 
( /* Figure 3.31 */ ) 


public java.util.Iterator«AnyType» iterator( ) 
{ return new LinkedListiIterator( ); } 
private class LinkedListIterator implements java.util.Iterator«AnyType» 
( /* Figure 3.32 */ } 


private int theSize; 

private int modCount - 0; 

private Node<AnyType> beginMarker; 
private Node<AnyType> endMarker; 





图 3-24 MyLinkedList 类 
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private static class Node<AnyType> 
{ 


public Node( AnyType d, Node<AnyType> p, Node«AnyType» n ) 


( data = d; prev = p; next = n; } 


public AnyType data; 
public Node<AnyType> prev; 
public Node<AnyType> next; 





3-25 MyLinkedList HJR Node 类 


— 
* Change the size of this collection to zero. 
E 

public void clear( ) 


{ 
beginMarker = new Node<AnyType>( null, null, null ); 


endMarker = new NodecAnyType»( null, beginMarker, null ); 
beginMarker.next = endMarker; 


theSize = 0; 
modCount++; 





图 3-26 MyLinkedList 类 的 clear 例 程 





图 3-27 通过 获取 一 个 新 节点 ,然后 按 所 指示 的 顺序 
改变 指针 而 完成 向 一 个 双 链 表 中 的 插入 操作 


/** 

* Adds an item to this collection, at specified position p. 

* Items at or after that position are slid one position higher. 

* @param p Node to add before. 

* (param x any object. 

* throws IndexOutOfBoundsException if idx is not between 0 and size(),. 


"i 


private void addBefore( Node<AnyType> p, AnyType x ) 
{ 


Node<AnyType> newNode = new Node<AnyType>( x, p.prev, p ); 
newNode.prev.next = newNode; 

p.prev = newNode; 

theSize**; 

modCount ** ; 





图 3-28 MyLinkedList 类 的 add 例 程 
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图 3-29 ”从 一 个 双 链 表 中 删除 由 p 指定 的 节点 


* Removes the object contained in Node p. 
* @param p the Node containing the object. 
* (return the item was removed from the collection. 
at 
private AnyType remove( Node«AnyType» p ) 
{ 
p.next.prev = p.prev; 
p.prev.next = p.next; 
theSize--; 
modCount++; 


return p.data; 


— — — — — 
^O C9 B3 — C5 (o O0 4 Oy CA WH 





图 3-30 MyLinkedList 类 的 remove 例 程 
图 3-31 包含 前 面 提 到 的 私有 getNode 方法。 如 果 索 引 表 示 该 表 前 半 部 分 的 一 个 节点 , 那么 


[** 
* Gets the Node at position idx, which must range from 0 to size( ). 
* (param idx index of node being obtained. 
* @return internal node corresponding to idx. 
* @throws IndexOutOfBoundsException if idx is not between 0 and size(). 
"i 
private Node«AnyType» getNode( int idx ) 
{ 


COON DM AR CO — 


Node«AnyType» p; 


— — 
a C5 


if( idx « 0 || idx » size( ) ) 
throw new IndexOutOfBoundsException( ); 


— 
N 


if( idx < size( ) / 2) 
{ 
p = beginMarker.next; 
for( int i = 0; i < idx; i++ ) 
p = p.next; 


} 


else 


{ 


p = endMarker; 
for( int i = size( ); i > idx; i-- ) 
p = p.prev; 


} 


return p; 





3-31 MyLinkedList 类 的 私有 getNode 例 程 
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在 第 16 行 到 第 18 行 我 们 将 以 向 后 的 方向 遍历 该 链表 。 否 则 , 我 们 从 终端 开始 向 回 走 , 如 图 中 第 
22 行 到 第 24 行 所 示 。 

如 图 3-32 所 示 , LinkedbistIterator 具有 类 似 于 ArrayListlterator 的 逻辑 , 但 合并 了 重要 
的 错误 检测 。 该 迭代 器 保留 一 个 当前 位 置 , 如 第 3 行 所 示 。current 表示 包含 由 调用 next 所 返回 
的 项 的 节点 。 注 意 , 当 current 被 定位 于 endMarker Hj, Xj next 的 调用 是 非法 的 。 


private class LinkedListIterator implements java.util.Iterator«AnyType» 
{ 

private Node<AnyType> current = beginMarker.next; 

private int expectedModCount = modCount; 

private boolean okToRemove = false; 


public boolean hasNext( ) 
{ return current != endMarker; } 


public AnyType next( ) 
{ 
if( modCount != expectedModCount ) 
throw new java.util .ConcurrentModificationException( ); 
if( thasNext( ) ) 
throw new java.util .NoSuchElementException( ); 


AnyType nextItem = current.data; 
current = current.next; 
okToRemove = true; 

return nextitem; 


) 


public void remove( ) 
{ 
if( modCount != expectedModCount ) 
throw new java.util.ConcurrentModificationException( ); 
if( !okToRemove ) 
throw new IllegalStateException( ); 


MyLinkedList. this .remove( current.prev ); 
okToRemove = false; 
expectedModCount++; 





图 3-32 MyLinkedList 类 的 内 部 Iterator 类 

为 了 检测 在 迭代 期 间 集 合 被 修改 的 情况 , 迭代 器 在 第 4 行将 迭代 器 被 构造 时 的 链表 的 mod- 
Count 存储 在 数据 域 expectedModCount 中 。 在 第 577, WH next 已 经 被 执行 而 没有 其 后 的 re 
move， 则 布尔 数据 域 okToRemove 为 true。 因 此 ，okToRemove 初始 为 false, 在 next 方法 中 置 为 
true， 在 remove 方法 中 置 为 false。 
hasNext 是 一 个 简单 的 例 程 。 和 在 java.util.LinkedList 的 迭代 器 中 一 样 , 它 不 检查 链表 的 
修改 。 

next 方法 在 获得 (第 17 行 ) 将 要 返回 (第 20 行 ) 的 节点 的 值 后 向 后 推进 current( 第 18 行 )。 
okToRemove 在 第 19 行 被 更 新 。 
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最 后 ,迭代 器 的 remove 方法 如 第 23 行 至 第 32 行 所 示 。 该 方法 主要 是 错误 检测 (这 就 是 为 什 
么 我 们 避免 ArrayListIterator 中 的 错误 检测 的 原因 )。 在 第 30 行 上 的 具体 的 remove 模仿 Ar- 
rayListlterator 中 的 逻辑 。 不 过 在 这 里 current 是 保持 不 变 的 , 因为 current 正在 观察 的 节点 不 
受 前 面 节 点 被 删除 的 影响 (在 arrayListIterator "P, 项 被 移动 , 要 求 更 新 current)。 


3.6 栈 ADT 


3.6.1 HE 

栈 (stack) 是 限制 插 人 和 删除 只 能 在 一 个 位 置 上 进行 的 表 , 该 位 置 是 表 的 末端 , 叫做 栈 的 项 
(top)。 对 栈 的 基本 操作 有 push( 进 栈 ) 和 pop( 出 栈 ), 前 者 相当 于 插 人 , 后 者 则 是 删除 最 后 插入 的 
元 素 。 最 后 插 人 的 元 素 可 以 通过 使 用 top 例 程 在 执行 pop 之 前 进行 考查 。 对 空 栈 进 行 的 pop 或 
top 一 般 被 认为 是 栈 ADT 中 的 一 个 错误 。 另 一 方面 , 当 运 行 push 时 空间 用 尽 是 一 个 实现 限制 ， 
但 不 是 ADT 错误 。 

栈 有 时 又 叫做 LIFO( 后 进 先 出 ) 表 。 在 图 3-33 中 描述 的 模型 只 象征 着 push 是 输入 操作 而 pop 
和 top 是 输出 操作 。 普 通 的 清空 栈 的 操作 和 判断 是 否 空 栈 的 测试 都 是 栈 的 操作 指令 系统 的 一 部 
分 , 但 是, 我 们 对 栈 所 能 够 做 的 , 基本 上 也 就 是 push 和 pop 操作 。 

3.34 表示 在 进行 若干 操作 后 的 一 个 抽象 的 栈 。 一 般 的 模型 是 , 存在 某 个 元 素 位 于 栈 顶 ， 
而 该 元 素 是 唯一 的 可 见 元 素 。 


top 





top Beo PME me 
3.33 RISUS. 通过 push RMA, 3.34 REUS. 只 有 栈 顶 元 素 是 可 访问 的 
通过 pop 和 top 从 栈 中 输出 


3.6.2 栈 的 实现 

由 于 栈 是 一 个 表 , 因此 任何 实现 表 的 方法 都 能 实现 栈 。 显 然 ，arrayList 和 LinkedList 都 支 
持 栈 操作 ; 99% 的 时 间 它 们 都 是 最 合理 的 选择 。 偶 尔 设计 一 种 特殊 目的 的 实现 可 能 会 更 快 ( 例 
如 ,如 果 被 放 到 栈 上 的 项 属于 基本 类 型 )。 因 为 栈 操作 是 常数 时 间 操 作 , 所 以 , 除非 在 非常 独特 
的 环境 下 , 这 是 不 可 能 产生 任何 明显 的 改进 的 。 对 于 这 些 特殊 的 时 机 , 我 们 将 给 出 两 个 流行 的 实 
RAK, 一 种 方法 使 用 链 式 结构 ,而 另 一 种 方法 则 使 用 数组 ,二 者 均 简 化 了 在 ArrayList 和 
LinkedList 中 的 逻辑 ,因此 我 们 不 提供 代码 。 
栈 的 链表 实现 | 

栈 的 第 一 种 实现 方法 是 使 用 单 链表 。 通 过 在 表 的 顶端 插入 来 实现 push, 通过 删除 表 顶 端 元 
KLE pop. top 操作 只 是 考查 表 顶 端 元 素 并 返回 它 的 值 。 有 时 pop 操作 和 cop 操作 合 二 为 一 。 
栈 的 数组 实现 

另 一 种 实现 方法 避免 了 链 而 且 可 能 是 更 流行 的 解决 方案 。 由 于 模仿 ArrayList 的 add 操作 
因此 相应 的 实现 方法 非常 简单 。 与 每 个 栈 相关 联 的 操作 是 theArray 和 topOfStack， 对 于 空 栈 它 
是 -1( 这 就 是 空 栈 初 始 化 的 做 法 )。 为 将 某 个 元 素 x 推 人 栈 中 , 我 们 使 topofStack 增 1 然后 置 
theArray[topOfStack] = x。 为 了 弹出 栈 元 素 , 我 们 置 返回 值 为 thearray[ topOfStack] 然 后 使 
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topOfStack jx 1。 

注意 , 这 些 操 作 不 仅 以 常数 时 间 运 行 , 而 且 是 以 非常 快 的 常数 时 间 运 行 。 在 某 些 机 器 上 , A 
在 带 有 自 增 和 自 减 寻 址 功能 的 寄存 器 上 操作 , 则 (整数 的 )push 和 pop 都 可 以 写成 一 条 机 器 指令 。 
最 现代 化 的 计算 机 将 栈 操作 作为 它 的 指令 系统 的 一 部 分 , 这 个 事实 强化 了 这 样 一 种 观念 , 即 栈 很 
可 能 是 在 计算 机 科学 中 在 数组 之 后 的 最 基本 的 数据 结构 。 

3.6.3 应 用 

毫 不 奇怪 , 如果 我 们 把 操作 限制 在 对 一 个 表 上 进行 , 那么 这 些 操 作 会 执行 得 很 快 。 然 而 , > 
人 惊奇 的 是 , 这 些 少量 的 操作 非常 强大 和 重要 。 在 栈 的 许多 应 用 中 , 我 们 给 出 三 个 例子 , 第 三 个 
实例 深刻 说 明 程 序 是 如 何 组 织 的 。 | 
平衡 符号 

编译 器 检查 程序 的 语法 错误 , 但 是 常常 由 于 缺少 一 个 符号 (如 遗漏 一 个 花 括 号 或 是 注释 起 始 
符 ) 引 起 编译 器 列 出 上 百 行 的 诊断 , 而 真正 的 错误 并 没有 找 出 。( 幸 运 的 是 , 大 部 分 Java 编译 器 在 
这 一 点 上 是 相当 好 的 。 但 不 是 所 有 的 语言 和 编译 器 都 这 么 可 靠 。) 

在 这 种 情况 下 ,一 个 有 用 的 工具 就 是 检验 是 否 每 件 事情 都 能 成 对 的 程序 。 于 是 , 每 一 个 右 花 
括号 、 右 方 括号 及 右 圆 括号 必然 对 应 其 相应 的 左 括号 。 序 列 [()] 是 合法 的 , 但 [( ] ) 是 错误 的 。 
显然 , 不 值得 为 此 编写 一 个 大 型 程序 , 事实 上 检验 这 些 事情 是 很 容易 的 。 为 简单 起 见 , 我 们 仅 就 
圆 括 号 、 方 括号 和 花 括号 进行 检验 并 忽略 出 现 的 任何 其 他 字符 。 

这 个 简单 的 算法 用 到 一 个 栈 , 叙述 如 下 : 

做 一 个 空 栈 。 读 入 字符 直到 文件 结尾 。 如 果 字 符 是 一 个 开放 符号 ， 则 将 其 推 入 栈 

中 。 如 果 字 符 是 一 个 封闭 符号 ， 则 当 栈 空 时 报错 。 否 则 ,将 栈 元 素 弹出 。 如 果 弹 出 的 符 

号 不 是 对 应 的 开放 符号 ， 则 报错 。 在 文件 结尾 ， 如 果 栈 非 空 则 报错 。 

我 们 应 该 能 够 确信 这 个 算法 是 会 正确 运行 的 。 很 清楚 , 它 是 线性 的 , 事实 上 它 只 需 对 输入 进 
行 一 趟 检验 。 因 此 , 它 是 联机 (on-line) 的 , 是 相当 快 的 。 当 报错 时 决定 如 何 处 理 需 要 做 一 些 附加 
的 工作 一 一 例如 判断 可 能 的 原因 。 

IS SURG X 

假设 我 们 有 一 个 便携 式 计 算 器 并 想 要 计算 一 趟 外 出 购物 的 花费 。 为 此 , 我 们 将 一 列 数据 相 
加 并 将 结果 乘 以 1.06; 它 是 所 购物 品 的 价格 以 及 附加 的 地 方 销售 税 。 如 果 购 物 各 项 花 销 为 4.99、 
5.99 和 6.99, 那么 输入 这 些 数据 的 自然 的 方式 将 是 

4.99+5.99+6.99*1.06= 
随 着 计算 器 的 不 同 , 这 个 结果 或 者 是 所 要 的 答案 19.05, 或 者 是 科学 答案 18.39。 最 简单 的 四 功 
能 计算 器 都 将 给 出 第 一 个 答案 , 但 是 许多 先进 的 计算 器 是 知道 乘法 的 优先 级 高 于 加 法 的 。 

另 一 方面 ,有些 项 是 需要 上 税 的 而 有 些 项 则 不 是 , 因此 , 如 果 只 有 第 一 项 和 最 后 一 项 是 要 上 

BA, 那么 计算 的 顺序 

4.99 * 1.06+5.99+6.99 * 1.06= 
将 在 科学 计算 器 上 给 出 正确 的 答案 (18.69) 而 在 简单 计算 器 上 给 出 错误 的 答案 (19.37)。 科 学 计 
算 器 一 般 包 含 括号 , 因此 我 们 总 可 以 通过 加 括号 的 方法 得 到 正确 的 答案 , 但 是 使 用 简单 计算 器 我 
们 需要 记 住 中 间 结 果 。 

该 例 的 典型 计算 顺序 可 以 是 将 4.99 和 1.06 相 乘 并 存 为 A;, 然后 将 5.99 f A, HI, BERE 
结果 存 人 A; 我 们 再 将 6.99 和 1.06 相 乘 并 将 答案 存 为 A,, 最 后 将 A, 和 A, 相 加 并 将 最 后 结果 
BA Ai。 我 们 可 以 将 这 种 操作 顺序 书写 如 下 : 

4.99 1.06 * 5.99-- 6.99 1.06 * + 
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xx 4 ic p nU BUG SE (postfix) 338 3 35 (reverse Polish) 记 法 ， 其 求 值 过 程 恰 好 就 是 上 面 所 描述 
的 过 程 。 计 算 这 个 问题 最 容易 的 方法 是 使 用 一 个 栈 。 当 见 到 一 个 数 时 就 把 它 推 人 栈 中 ; 在 遇 到 
一 个 运算 符 时 该 算 符 就 作用 于 从 该 栈 弹出 的 两 个 数 (符号 ) 上 ,再 将 所 得 结果 推 人 栈 中 。 例 如 , 后 
缀 表达 式 
6523+8* +3+ * 
计算 如 下 : 前 四 个 字符 放 入 栈 中 ,此 时 栈 变 成 


topOfStack ”一 





下 面 读 到 一 个 “+ "号 , 所 以 3 和 2 从 栈 中 弹出 并 且 它 们 的 和 5 被 压 人 栈 中 
接着 , 8 进 栈 


现在 见 到 一 个 ‘* 号 , 因此 8 和 5 弹出 并 且 5 8-40 HER 


topOfStack 一 40 
5 


6 


接着 又 见 到 一 个 “+ "号 , 因此 40 和 5 被 弹出 并 且 5 + 40— 45 HER 


mu 


现在 将 3 压 人 栈 中 
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BUS,.i8$1—4 * ' 号 ， 从 栈 中 弹出 48 和 6; 将 结果 6* 48 = 288 压 进 栈 中 


topOfStack 一 | 288 


计算 一 个 后 缀 表达 式 花 费 的 时 间 是 ON), 因为 对 输入 中 的 每 个 元 素 的 处 理 都 是 由 一 些 栈 
操作 组 成 从 而 花费 常数 的 时 间 。 该 算法 的 计算 是 非常 简单 的 。 注 意 ， 当 一 个 表达 式 以 后 缀 记号 
给 出 时 , 没有 必要 知道 任何 优先 的 规则 , 这 是 一 个 明显 的 优点 。 

中 缀 到 后 缀 的 转换 

栈 不 仅 可 以 用 来 计算 后 级 表达 式 的 值 , 而 且 还 可 以 用 栈 将 一 个 标准 形式 的 表达 式 ( 或 叫做 中 
S AX nfi) ) 转 换 成 后 缀 式 。 我 们 通过 只 允许 操作 +. * ,(,), 并 坚持 普通 的 优先 级 法 则 而 将 
一 般 的 问题 浓缩 成 小 规模 的 问题 。 此 外 , 还 要 进一步 假设 表达 式 是 合法 的 。 假 设 将 中 缀 表达 式 

atb*ct(d*et*f)*g 
转换 成 后 缀 表达 式 。 正 确 的 答案 是 abc* +de*f+gx +, 

当 读 到 一 个 操作 数 的 时 候 , 立即 把 它 放 到 输出 中 。 操 作 符 不 立即 输出 ,从 而 必须 先 存在 某 个 
地 方 。 正 确 的 做 法 是 将 已 经 见 到 过 但 尚未 放 到 输出 中 的 操作 符 推 人 栈 中 。 当 遇 到 左 圆 括号 时 我 
们 也 要 将 其 推 人 栈 中 。 计 算 从 一 个 空 栈 开始 。 

如 果 见 到 一 个 右 括号 , 那么 就 将 栈 元 素 弹 出 , 将 弹出 的 符号 写 出 直至 遇 到 一 个 (对 应 的 ) 左 括 
号 , 但 是 这 个 左 括号 只 被 弹出 并 不 输出 。 

如 果 我 们 见 到 任何 其 他 的 符号 (+ ,* CO, 那么 我 们 从 栈 中 弹出 栈 元 素 直到 发 现 优先 级 更 低 
的 元 素 为 止 。 有 一 个 例外 : 除非 是 在 处 理 一 个 ) 的 时 候 , 否则 我 们 决 不 从 栈 中 移 走 (。 对 于 这 种 操 
作 ，+ 的 优先 级 最 低 ， 而 (的 优先 级 最 高 。 当 从 栈 弹出 元 素 的 工作 完成 后 , 我 们 再 将 操作 符 压 人 
RE, 

最 后 , 如果 读 到 输入 的 末尾 , 我 们 将 栈 元 素 弹 出 直到 该 栈 变 成 空 栈 , 将 符号 写 到 输出 中 。 

这 个 算法 的 想法 是 ， 当 看 到 一 个 操作 符 的 时 候 , 把 它 放 到 栈 中 。 栈 代表 挂 起 的 操作 符 。 然 
而 , 栈 中 有 些 具 有 高 优先 级 的 操作 符 现在 知道 当 它们 不 再 被 挂 起 时 要 完成 使 用 , 应 该 被 弹出 。 这 
FE, 在 把 当前 操作 符 放 人 栈 中 之 前 , 那些 在 栈 中 并 在 当前 操作 符 之 前 要 完成 使 用 的 操作 符 被 弹 
出 。 详 细 的 解释 见 下 表 : 





表达 式 在 处 理 第 3 个 操作 符 时 的 栈 动作 
a*b-c*d - l 完成 ，+ 进 栈 
a/b*c*d * 没有 操作 符 完 成 操作 ，* dtt 
a-b*c/d — * 完成 ，/ 进 栈 
a-b*ctd — * 和 一 完成 ，+ 进 栈 


圆 括号 增加 了 额外 的 复杂 因素 。 当 左 括号 是 一 个 输入 符号 时 我 们 可 以 把 它 看 成 是 一 个 高 优 
先 级 的 操作 符 (使 得 挂 起 的 操作 符 仍 是 挂 起 的 ), 而 当 它 在 栈 中 时 把 它 看 成 是 低 优先 级 的 操作 符 
(从 而 不 会 被 操作 符 意外 地 删除 )。 右 括号 被 处 理 成 特殊 的 情况 。 

为 了 理解 这 种 算法 的 运行 机 制 , 我 们 将 把 上 面 长 的 中 缀 表达 式 转 换 成 后 缀 形式 。 首 先 , 符号 
a 被 读 和 人, 于 是 它 被 传 向 输出 。 然 后 ,“ + “被 读 和 人 并 被 放 人 栈 中 。 接 下 来 b 读 人 并 流向 输出 。 这 
一 时 刻 的 状态 如 下 : 
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| 
Stack Output 


接着 * 号 被 读 和 人 。 操 作 符 栈 的 栈 顶 元 素 比 * 的 优先 级 低 , 故 没有 输出 且 * 进 栈 。 接 着 , c RIA 
并 输出 。 至 此 , 我 们 有 


* 


abc 
Stack Output 


后 面 的 符号 是 一 个 + 号 。 检 查 一 下 栈 我 们 发 现 , 需要 将 * 从 栈 弹出 并 把 它 放 到 输出 中 ; 弹出 栈 中 
剩 下 的 + 号 , 该 算 符 不 比 刚 刚 遇 到 的 + 号 优先 级 低 而 是 有 相同 的 优先 级 ; 然后 , 将 刚刚 遇 到 的 + 
号 压 人 栈 中 


Stack Output 


下 一 个 被 读 到 的 符号 是 一 个 (， 由 于 有 最 高 的 优先 级 , 因此 它 被 放 进 栈 中 。 然 后 , d 读 人 并 输出 


( 
Output 


Stack 


继续 进行 , 我 们 又 读 到 一 个 * 。 由 于 除非 正在 处 理 闭 括号 否则 开 括号 不 会 从 栈 中 弹出 , 因此 没有 
输出 。 下 一 个 是 e, 它 被 读 人 并 输出 


* 


Stack Output 


绸 往 后 读 到 的 符号 是 + 。 我 们 将 * 弹出 并 输出 , 然后 将 + 压 人 栈 中 。 这 以 后 , 我 们 读 到 { 并 输出 


Stack Output 
现在 , 我 们 读 到 一 个 ), 因此 将 栈 元 素 直 到 (弹出 ,我们 将 一 个 + 号 输出 
| 
Stack Output 


下 面 又 读 到 一 个 * ; 该 算 符 被 压 人 栈 中 。 然 后 , g 被 读 人 并 输出 


* 


abc**de*f*g 
Stack Output 


现在 输入 为 空 , 因此 我 们 将 栈 中 的 符号 全 部 弹出 并 输出 , 直到 栈 变 成 空 栈 


Stack Output 


与 前 面相 同 , 这 种 转换 只 需要 O(N) 时 间 并 经 过 一 趟 输入 后 工作 完成 。 可 以 通过 指定 减法 
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和 加 法 有 相同 的 优先 级 以 及 乘法 和 除法 有 相同 的 优先 级 而 将 减法 和 除法 添加 到 指令 集中 去 。 需 
要 注意 的 是 ,表达 式 a- b-c 应 转换 成 ab-e- 而 不 是 abc-- 。 我 们 的 算法 进行 了 正确 的 操作 , 因 
为 这 些 操作 符 是 从 左 到 右 结合 的 。 一 般 情况 未 必 如 此 ,比如 下 面 的 表达 式 就 是 从 右 到 左 结合 的 : 


27 =28=256, 而 不 是 43 = 64。 我 们 将 把 取 埋 运算 添加 到 操作 符 指令 集中 的 问题 留 作 练 习 。 
方法 调用 

检测 平衡 符号 的 算法 提出 一 种 在 编译 的 过 程 语言 和 面向 对 象 语言 中 实现 方法 调用 的 方式 9 。 
这 里 的 问题 是 ， 当 调用 一 个 新 方法 时 ， 主 调 例 程 的 所 有 局 部 变量 需要 由 系统 存储 起 来 ,否则 被 调 
用 的 新 方法 将 会 重 写 由 主 调 例 程 的 变量 所 使 用 的 内 存 。 不 仅 如 此 , 该 主 调 例 程 的 当前 位 置 也 必 
须要 存储 ,以便 在 新 方法 运行 完 后 知道 向 哪里 转移 。 这 些 变量 一 般 由 编译 器 指派 给 机 器 的 寄存 
器 , 但 存在 某 些 冲突 (通常 所 有 的 方法 都 是 获取 指定 给 1 号 寄存 器 的 某 些 变量 ), 特别 是 涉及 递归 
的 时 候 。 该 问题 类 似 于 平衡 符号 的 原因 在 于 , 方法 调用 和 方法 返回 基本 上 类 似 于 开 括号 和 闭 括 
号 , 二 者 相同 的 想法 应 该 都 是 行 得 通 的 。 

当 存 在 方法 调用 的 时 候 , 需要 存储 的 所 有 重要 信息 , 诸如 寄存 器 的 值 (对 应 变量 的 名 字 ) 和 返 
回 地 址 ( 它 可 从 程序 计数 器 得 到 , 一 般 情 况 是 在 一 个 寄存 器 中 ) 等 ,都 要 以 抽象 的 方式 存在 “一 张 
纸 上 ” 并 被 置 于 一 个 堆 (pile) 的 顶部 。 然 后 控制 转移 到 新 方法 , 该 方法 自由 地 用 它 的 一 些 值 代替 这 
些 寄存 器 。 如 果 它 又 进行 其 他 的 方法 调用 , 那么 它 也 遵循 相同 的 过 程 。 当 该 方法 要 返回 时 , EE 
看 堆 顶 部 的 那 张 “ 纸 " 并 复原 所 有 的 寄存 器 , 然后 进行 返回 转移 。 
显然, 所 有 全 部 工作 均 可 由 一 个 栈 来 完成 , 而 这 正 是 在 实现 递归 的 每 一 种 程序 设计 语言 中 实 
际 发 生 的 事实 。 所 存储 的 信息 或 称 为 活动 记录 (activation record), 或 叫做 栈 帧 (stack frame)。 在 
典型 情况 下 , 需要 做 些微 调整 : 当前 环境 是 由 栈 项 描述 的 。 因 此 ,一 条 返回 语句 就 可 给 出 前 面 的 
环境 (不 用 复制 )。 在 实际 计算 机 中 的 栈 常常 是 从 内 存 分 区 的 高 端 向 下 增长 ， 而 在 许多 非 Java 系 
统 中 是 不 检测 溢出 的 。 由 于 有 太 多 的 同时 在 运行 着 的 方法 ,因此 栈 空间 用 尽 的 情况 总 是 可 能 发 
生 的 。 显 而 易 见 , 栈 空间 用 尽 常 是 致命 的 错误 。 

在 不 进行 栈 溢出 检测 的 语言 和 系统 中 , 程序 将 会 崩溃 而 没有 明显 的 说 明 ; 而 在 Java 中 则 抛 出 
一 个 异常 。 

在 正常 情况 下 我 们 不 应 该 越 出 栈 空间 , 发 生 这 种 情况 通常 是 由 失控 递归 (忽视 基准 情形 ) 的 
指向 引起 。 另 一 方面 , 某 些 完全 合法 并 且 表面 上 无 问题 的 程序 也 可 以 越 出 栈 空间 。 图 3-35 中 的 
例 程 打印 一 个 集合 , 该 例 程 完全 合法 ,实际 上 是 正确 的 。 它 正常 地 处 理 空 集合 的 基准 情形 , 并 且 
递归 也 没有 问题 。 可 以 证 明 这 个 程序 是 正确 的 。 但 是 不 幸 的 是 , 如 果 这 个 集合 含有 20 000 个 元 
素 要 打印 , 那么 就 要 有 表示 第 10 行 嵌 套 调用 的 20 000 个 活动 记录 的 栈 。 一 般 这 些 活动 记录 由 于 
它们 包含 了 全 部 信息 而 特别 庞大 , 因此 这 个 程序 很 可 能 要 越 出 栈 空间 。( 如 果 20 000 个 元 素 还 不 
足以 使 程序 崩溃 , 那么 可 用 更 大 的 元 素 个 数 代 蔡 它 。) 

这 个 程序 是 称 为 尾 递 归 (tail recursion) 的 使 用 极端 不 当 的 例子 。 昆 递归 涉及 在 最 后 一 行 的 弟 
归 调 用 。 尾 递归 可 以 通过 将 代码 放 到 一 个 while 循环 中 并 用 每 个 方法 参数 的 一 次 赋值 代替 递归 
调用 而 被 手工 消除 。 它 模拟 了 递归 调用 , 因为 它 什 么 也 不 需要 存储 ; 在 递归 调用 结束 之 后 , 实际 
上 没有 必要 知道 存储 的 值 。 因 此 , 我 们 就 可 以 带 着 在 一 次 递归 调用 中 已 经 用 过 的 那些 值 转移 到 
方法 的 顶部 。 图 3-36 中 的 方法 显示 手工 改进 后 的 程序 。 尾 递归 的 去 除 是 如 此 的 简单 ,以 至 于 某 


O 由 于 Java 是 解释 而 不 是 编译 执行 的 , 因此 本 节 有 些 细节 不 可 用 到 Java 上 , 但 是 一 般 的 概念 仍然 可 以 在 Java 和 许 
多 其 他 语言 上 使 用 。 
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些 编译 器 能 够 自动 完成 。 但 是 即使 如 此 , 最 好 还 是 不 要 让 你 的 程序 带 着 尾 递归 。 
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l 
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6 
7 
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13 


递归 总 能 够 被 彻底 去 除 ( 编 译 器 是 在 转变 成 汇编 语言 时 完成 递归 去 除 的 ), 但 是 这 么 做 是 相 
当 元 长 乏味 的 。 一 般 方法 是 要 求 使 用 一 个 栈 , 而 且 仅 当 你 能 够 把 最 低 限 度 的 最 小 值 放 到 栈 上 时 
这 个 方法 才 值 得 一 用 。 我 们 将 不 对 此 做 进一步 的 详细 讨论 , 只 是 指出 , 虽然 非 递归 程序 一 般 说 来 
确实 比 等 价 的 递归 程序 要 快 , 但 是 速度 优势 的 代价 却 是 由 于 去 除 递 归 而 使 得 程序 清晰 性 受到 了 


影响 。 


3.7 队列 ADT 


ek 

* Print container from itr. 

i d d 

public static «AnyType» void printList( Iterator<AnyType> itr ) 


if( titr.hasNext( ) ) 
return; 


System.out.println( itr.next( ) ); 
printList( itr ); 
} 





图 3-35 ”递归 的 不 当 使 用 : 打印 一 个 链表 


** 

* Print container from itr. 

ni 

public static «AnyType» void printList( Iterator«AnyType» itr ) 
{ 


while( true ) 
{ 


if( titr.hasNext( ) ) 
return; 


System.out.println( itr.next( ) ); 
} 
} 





图 3-36 不 用 递归 而 打印 一 个 表 : 编译 器 可 以 做 到 


RIF 


像 栈 一 样 ， 队列 (queue) 也 是 表 。 然 而 , 使 用 队列 时 插入 在 一 端 进行 而 删除 则 在 另 一 端 进行 。 


3.7.1 队列 模型 
队列 的 基本 操作 是 enqueue( ABA), 它 是 在 表 的 末端 (叫做 队 尾 (rear) ) 插 人 一 个 元 素 ， 和 de- 
queue( 出 队 )， 它 是 删除 (并 返回 ) 在 表 的 开头 (叫做 队 头 (front) ) 的 元 素 。 图 3-37 显示 一 个 队列 的 


抽象 模型 。 


图 3-37 ”队列 模型 
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3.7.2 队列 的 数组 实现 

如 同 栈 的 情形 一 样 , 对 于 队列 而 言 任何 的 表 的 实现 都 是 合法 的 。 像 栈 一 样 ， 对 于 每 一 种 操 
作 , 链表 实现 和 数组 实现 都 给 出 快速 的 O(1) 运 行 时 间 。 队 列 的 链表 实现 是 简单 直接 的 , 我 们 留 
作 练 习 。 下 面 讨论 队 列 的 数组 实现 。 

对 于 每 一 个 队列 数据 结构 , 我 们 保留 一 个 数组 theArray 以 及 位 置 front 和 back, 它们 代表 队 
列 的 两 端 。 我 们 还 要 记录 实际 存在 于 队列 中 的 元 素 的 个 数 currentSize。 下 图 表示 处 于 某 个 中 间 
状态 的 一 个 队列 。 


a UN 


front back 


操作 应 该 是 清楚 的 。 为 使 一 个 元 素 x 人 队 ( 即 执行 enqueue), 我 们 让 currentSize 和 back 增 
1, 然后 置 theArray[back] =x。 若 使 元 素 dequeue( HPA), 我 们 置 返回 值 为 theArray[front], H. 
currentSize 减 1, 然后 使 front 增 1。 也 可 以 有 其 他 的 方法 (将 在 后 面 讨论 )。 现 在 论述 错误 检 
测 。 

上 述 实现 存在 一 个 潜在 的 问题 。 经 过 10 次 engueue 后 队列 似乎 是 满 了 , 因为 back 现在 是 数 
组 的 最 后 一 个 下 标 , 而 下 一 次 再 enev 就 会 是 一 个 不 存在 的 位 置 。 然 而 , 队列 中 也 许 只 存在 几 
个 元 素 , 因为 若干 元 素 可 能 已 经 出 队 了 。 像 栈 一 样 , 即使 在 有 许多 操作 的 情况 下 队列 也 常常 不 是 
很 大 。 

简单 的 解决 方法 是 , 只 要 front 或 back 到 达 数 组 的 尾 端 , 它 就 又 绕 回 到 开头 。 下 面 诸 图 显示 
在 某 些 操作 期 间 的 队列 情况 。 这 叫做 循环 数组 (circular array) 实 现 。 

实现 回 绕 所 需要 的 附加 代码 是 极 小 的 (不 过 它 可 能 使 得 运行 时 间 加 倍 )。 如 果 front 或 back 
增 1 导致 超越 了 数组 , 那么 其 值 就 要 重 置 到 数组 的 第 一 个 位 置 。 

初始 状态 
PEEL T te 
ice bak 
tait enqueve( 1) fei 
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back front 
£o yf enqueue( 3)Jc 
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经 过 dequeue 并 返回 2 后 
ees} PE Ty fe fs | 
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back front 


经 过 dequeue 并 返回 4 后 
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经 过 dequeue 并 返回 1 后 


ENTIER ERU ID ES ES 


back 
front 


经 过 dequeue 并 返回 3 后 同时 
使 队列 为 空 


— — 


有 些 程序 设计 员 使 用 不 同 的 方法 表示 队列 的 队 头 和 队 尾 。 例 如 ,有 人 不 使 用 一 项 来 记录 大 
小 ,因为 他 们 依赖 于 当 队 列 为 空 (back = front - 1) 时 的 基准 情形 。 队 列 的 大 小 通过 比较 back 和 
front 隐 式 地 算出 。 这 是 一 种 非常 隐秘 的 方法 , 因为 存在 某 些 特殊 的 情形 , 因此 ,如 果 你 想 修改 
用 这 种 方法 编写 的 程序 , 那 就 要 特别 地 小 心 。 如 果 currentSize 不 作为 明确 的 数据 域 被 保留 , 那 
么 当 存 在 theArray. — 1 个 元 素 时 队列 就 满 了 , 因为 只 有 theArray. length 个 不 同 的 大 小 可 
被 区 分 , 而 0 是 其 中 的 一 个 。 可 以 采用 任意 一 种 你 喜欢 的 风格 , 但 要 确保 你 的 所 有 例 程 都 是 一 致 
的 。 人 因此 如 果 不 使 用 currentSize bh, 那 就 很 可 能 有 必要 进行 一 些 注 
E, 否则 会 在 一 个 程序 中 使 用 两 种 选择 。 

在 保证 enqueue 的 次 数 不 会 大 于 队列 容量 的 应 用 中 , 使 用 回 绕 是 没有 必要 的 。 像 栈 一 样 ， 除 
非 主 调 例 程 肯定 队列 非 空 , 否则 dequeue 很 少 执行 。 因 此 对 这 种 操作 ,只 要 不 是 关键 的 代码 , 错 
误 检 测 常常 被 跳 过 。 一 般 说 来 这 并 不 是 无 可 非议 的 ,因为 这 样 可 能 得 到 的 时 间 节 省 量 是 极 小 的 。 
3.7.3 队列 的 应 用 

有 许多 使 用 队列 给 出 高 效 运 行 时 间 的 算法 。 它 们 当中 有 些 可 以 在 图 论 中 找到 , 我 们 将 在 第 9 
章 讨论 它们 。 这 里 , 先 给 出 某 些 应 用 队列 的 简单 例子 。 

当 作业 送 交 给 一 台 行 式 打 印 机 的 时 候 , 它们 就 以 到 达 的 顺序 被 排列 起 来 。 因 此 , 被 送 往 行 式 
打印 机 的 作业 基本 上 被 放 到 一 个 队列 中 。9 

事实 上 每 一 个 实际 生活 中 的 排队 都 (应 该 ) 是 一 个 队列 。 例 如 , 在 一 些 售票 口 排列 的 队伍 都 
是 队列 ,因为 服务 的 顺序 是 先 到 先 买 票 。 

另 一 个 例子 是 关于 计算 机 网 络 的 。 有 多 种 PC 机 的 网 络 设置 其 中 磁盘 是 放 在 一 台 叫 做 文件 
服务 器 (file server) 的 机 器 上 的 。 使 用 其 他 计算 机 的 用 户 是 按照 先 到 先 使 用 的 原则 访问 文件 的 , 因 
此 其 数据 结构 是 一 个 队列 。 

进一步 的 例子 如 下 : 

。 当 所 有 的 接线 员 忙 不 开 的 时 候 , 对 大 公司 的 呼叫 一 般 都 被 放 到 一 个 队列 中 。 

。 在 大 型 的 大 学 里 , 如 果 所 有 的 终端 都 被 占用 , 由 于 资源 有 限 , 学 生 们 必须 在 一 个 等 待 表 上 

签字 登记 。 在 终端 上 呆 得 时 间 最 长 的 学 生 将 首先 被 强制 离开 , 而 等 待 时 间 最 长 的 学 生 则 
将 是 下 一 个 被 允许 使 用 终端 的 用 户 。 

称 为 排队 论 (queueing theory) 的 整个 数学 分 支 处 理 用 概率 的 方法 计算 用 户 预 计 要 排队 等 待 多 
长 时 间 才 会 得 到 服务 、 等 待 服务 的 队伍 能 够 排 多 长 、 以 及 其 他 一 些 诸如 此 类 的 问题 。 问 题 的 答案 
依赖 于 用 户 到 达 排 队 的 经 常 程度 以 及 一 旦 用 户 得 到 服务 时 处 理 服 务 花费 的 时 间 。 这 两 个 参数 作 
为 概率 分 布 函数 给 出 。 在 一 些 简单 的 情况 下 , 答案 可 以 解析 地 算出 。 一 种 简单 情况 的 例子 是 一 
条 电话 线 有 一 个 接线 员 。 如 果 接 线 员 忙 ， 打 来 的 电话 就 被 放 到 一 个 等 待 队列 中 (这 还 与 某 个 容许 


O 我 们 说 基本 上 是 因为 作业 可 以 被 取消 。 这 等 于 从 队列 的 中 间 进 行 一 次 删除 , 它 违反 了 队列 的 严格 定义 。 
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的 最 大 限度 有 关 )。 这 个 问题 在 商业 上 很 重要 , 因为 研究 表明 ,人 们 会 很 快 挂 上 电话 。 

如 果 我 们 有 上 个 接线 员 , 那么 这 个 问题 解决 起 来 要 困难 得 多 。 解 析 地 求解 起 来 困难 的 问题 
往往 使 用 模拟 的 方法 进行 。 此 时 , 我 们 需要 使 用 一 个 队列 来 进行 模拟 。 如 果 很 大 , 那么 我 们 还 
需要 其 他 一 些 数据 结构 来 使 得 模拟 更 有 效 地 进行 。 在 第 6 章 将 会 看 到 模拟 是 如 何 进行 的 ”时 时 
我 们 将 对 的 若干 值 进 行 模拟 并 选择 能 够 给 出 合理 等 待 时 间 的 最 小 的 &。 

正如 栈 一 样 ， 队列 还 有 其 他 丰富 的 用 途 , 这 样 一 种 简单 的 数据 结构 竟然 能 够 如 此 重要 , 实在 
令 人 惊奇 。 


小 结 


本 章 描述 了 一 些 ADT 的 概念 , 并 且 利 用 三 种 最 常见 的 抽象 数据 类 型 (ADT) 阐 述 了 这 种 概 
念 。 主 要 目的 就 是 将 抽象 数据 类 型 的 具体 实现 与 它们 的 功能 分 开 。 程 序 必须 知道 操作 都 做 些 什 
么 , 但 是 如 果 不 知道 如 何 去 做 那 就 更 好 。 

表 、 栈 和 队列 或 许 在 全 部 计算 机 科学 中 是 三 个 基本 的 数据 结构 , 大 量 的 例子 证 明了 它们 广泛 
的 用 途 。 特 别 地 , 我 们 看 到 栈 是 如 何 用 来 记录 过 程 和 方法 调用 的 , 以 及 递归 实际 上 是 如 何 实现 
的 。 这 对 于 我 们 的 理解 非常 重要 , 其 原因 不 只 因为 它 使 得 过 程 语 言 成 为 可 能 , 而 且 还 因为 知道 递 
归 的 实现 从 而 消除 了 围绕 其 使 用 的 大 量 迷 团 。 虽 然 递 归 非 常 强大 , 但 是 它 并 不 是 完全 随意 的 操 
作 ; 递归 的 误 用 和 乱用 可 能 导致 程序 崩 演 。 


练习 . 


3.1 ”给 定 一 个 表 L 和 另 一 个 表 P, 它们 包含 以 升序 排列 的 整数 。 操 作 printLots(L,P) 将 打印 
L 中 那些 由 P 所 指定 的 位 置 上 的 元 素 。 例 如 , 如 果 P=1,3,4,6, WA, L 中 位 于 第 1、 第 
3、 第 4 和 第 6 个 位 置 上 的 元 素 被 打印 出 来 。 写 出 过 程 printLots(L,P)。 只 可 使 用 public 
型 的 Collections API 容器 操作 。 该 过 程 的 运行 时 间 是 多 少 ? 

3.2 “通过 只 调整 链 (而 不 是 数据 ) 来 交换 两 个 相 邻 的 元 素 , 使 用 
a. 单 链表 。 

b. 双 链 表 。 

3.3 ”实现 MyLinkedList 的 contains 例 程 。 

3.4 ”给 定 两 个 已 排序 的 表 L M Lo 只 使 用 基本 的 表 操 作 编 写 计算 LOL, 的 过 程 。 

3.5 ”给 定 两 个 已 排序 的 表 L, A Lo, 只 使 用 基本 的 表 操 作 编 写 计 算 Li UL: 的 过 程 。 

3.6 Josephus 问题 (Josephus problem) 是 下 面 的 游戏 : N 个 人 编号 从 1 FN, 围 坐 成 一 个 圆圈 。 
从 1 号 开始 传递 一 个 热土 豆 。 经 过 M 次 传递 后 拿 着 热土 豆 的 人 被 清除 离 座 , ASH 
BAR, 由 坐 在 被 清除 的 人 后 面 的 人 拿 起 热土 豆 继续 进行 游戏 。 最 后 剩 下 的 人 取胜 。 因 
此 , 如 果 M=0 和 N=5, 则 游戏 人 依 序 被 清除 , 5 号 游戏 人 获胜 。 如 果 M=1 和 N=5， 
那么 被 清除 的 人 的 顺序 是 2,4,1,5。 

a. 编写 一 个 程序 解决 M 和 NN 在 一 般 值 下 的 Josephus 问题 ， 应 使 程序 尽 可 能 地 高 效率 ， 
要 确保 能 够 清除 各 个 单元 。 
b. 你 的 程序 的 运行 时 间 是 多 少 ? 

3.7 ”下 列 程序 的 运行 时 间 是 多 少 ? 
public static List«Integer» makeList( int N ) 
{ 
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3.12 
3:13 


3.14 


$33* 





ArrayList<Integer> Ist = new ArrayList<Integer>( ); 


for( int i = 0; i < N; i++ ) 
{ 
Ist.add( i ); 
^ ]st.trimToSize( ); 

) 
} 
下 列 例 程 删 除 作 为 参数 被 传递 的 表 的 前 半 部 分 : 
public static void removeFirstHalf( List<?> Ist ) 


( 
int theSize = 1st.size( ) / 2; 


for( int i = 0; i « theSize; i++ ) 
1st.remove( 0 ); 

) 
a. 为 什么 在 进入 for 循环 前 存储 theSize? 
b. 如 果 1st 是 一 个 ArrayList，removeFirstHalf 的 运行 时 间 是 多 少 ? 
c. 如 果 1st 是 一 个 LinkedList, removeFirstHalf 的 运行 时 间 是 多 少 ? 
d. 对 于 这 两 种 类 型 的 List 使 用 迭代 器 都 能 使 removeFirstHalf 更 快 吗 ? 
提供 对 MyArrayList 类 的 addall 方法 的 实现 。 方 法 addA11 将 由 items 给 定 的 特定 集合 的 
所 有 项 添加 到 MyarrayList 的 末端 。 再 提供 上 述 实 现 的 运行 时 间 。 你 使 用 的 方法 声明 与 
Java Collections API 中 的 略 有 不 同 ， 其 形式 如 下 : 
public void addAll( Iterable«? extends AnyType» items ) 


提供 对 MyLinkedList 类 的 removeAll 方法 的 实现 。 方 法 removeAll 将 由 items 给 定 的 特 
定 集合 的 所 有 项 从 MyLinkedList 中 删除 。 再 提供 上 述 实 现 的 运行 时 间 。 你 使 用 的 方法 
声明 与 Java Collections API 中 的 略 有 不 同 , 其 形式 如 下 : 


public void removeAl]( Iterable«? extends AnyType» items ) 


假设 单 链 表 使 用 一 个 头 节点 实现 , 但 无 尾 节点 , 并 假设 它 只 保留 对 该 头 节点 的 引用 。 编 
写 一 个 类 , 包含 

a. 返回 链表 大 小 的 方法 。 

b. 打印 链表 的 方法 。 

c. 测试 值 x 是 否 含 于 链表 的 方法 。 

d. 如 果 值 x 尚未 含 于 链表 , 添加 值 x 到 该 链表 的 方法 。 

e. 如 果 值 x 含 于 链表 , 将 x 从 该 链表 中 删除 的 方法 。 

保持 单 链表 以 排序 的 顺序 重复 练习 3.11。 

添加 ListIterator 对 MyArrayList 类 的 支持 。java.util 中 的 ListIterator 接口 比 
3.3.5 节 所 述 含有 更 多 的 方法 。 注 意 , 你 要 编写 一 个 listIterator 方法 返回 新 构造 的 
ListIterator, 并 且 还 要 注意 现存 的 迭代 器 方法 可 以 返回 一 个 新 构造 的 ListIterator。 
这 样 , 你 将 改变 ArrayListIterator, 使 得 它 实现 ListIterator 而 不 是 Iterator, X} F 
3.3.5 节 中 未 列 出 的 那些 方法 抛 出 UnsupportedOperationException 异常 。 

如 练习 3.13 所 述 , 添加 ListIterator 对 MyLinkedList 类 的 支持 。 
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3.19 


3.16 


3.41 


dad 
3:23 


3.24 


3,49 B 


"3.26 
3.27 





将 splice 操作 添加 到 LinkedList 类 中 。 该 方法 的 声明 


void splice(Iterator«T» itr, MyLinkedList<? extends T» Ist ) 


将 所 有 的 项 从 lst 中 删除 (使 lst 为 空 ), 把 它们 放 到 MyLinkedList this 中 的 itr 之 前 ， 
而 lst 和 this 必须 是 不 同 的 表 。 你 的 程序 必须 以 常数 时 间 运 行 。 
提供 ListIterator 的 另 一 种 方式 是 提供 带 有 声明 


Iterator<AnyType> reverseIterator( ) 


的 表 , 它 返 回 一 个 Iterator, 并 被 初始 化 至 最 后 一 项 , 其 中 next 和 basNext 被 实现 成 与 
迭代 器 向 表 的 前 端 (而 不 是 向 后 ) 推 进 一 致 。 然 后 , 你 可 以 通过 使 用 程序 
Iterator<AnyType> ritr = L.reverseIterator( ); 
while( ritr.hasNext( ) ) 

System.out.printin( ritr.next( ) ); 
反 向 打印 MyArrayList L。 用 这 种 思路 实现 ArrayListReverselterator 类 , 让 reverseIt- 
erator 返回 一 个 新 构造 的 ArrayListReverselterator, 
修改 MyArrayList 类 , 通过 使 用 在 3.5 节 对 MyLinkedList 所 看 到 的 那些 技巧 以 提供 严格 
的 迭代 器 检测 。 
对 MyLinkedList 类 ,通过 分 别 调用 私有 的 add, remove, getNode 例 程 实现 addFirst, 
addLast, removeFirst, removeLast, getFirst 和 getLast 等 方法 。 
不 用 头 节点 和 尾 节 点 重 写 MyLinkedList 类 , 并 描述 该 类 和 3.5 节 所 提供 的 类 之 间 的 
区 别 。 
不 同 于 我 们 已 经 给 出 的 删除 方法 , 另 一 种 是 使 用 懒惰 删除 (lazy deletion) 的 删除 方法 。 要 
删除 一 个 元 素 , 我 们 只 是 标记 上 该 元 素 被 删除 (使 用 一 个 附加 的 位 (bit) 域 )。 表 中 被 删除 
和 非 被 删除 元 素 的 个 数 作为 数据 结构 的 一 部 分 被 保留 。 如 果 被 删除 元 素 和 非 被 删除 元 素 
一 样 多 , 则 遍历 整个 表 , 对 所 有 被 标记 的 节点 执行 标准 的 删除 算法 。 
a. 列 出 懒惰 删除 的 优点 和 和 缺点。 
b. 编写 使 用 懒惰 删除 实现 标准 链表 操作 的 相应 例 程 。 
用 下 列 语言 编写 检测 平衡 符号 的 程序 : 
a. Pascal(begin/end,( ),[ ].11) 
b. Java(/* */,(),[],1 D 


* c. 解释 如 何 打印 出 一 个 很 可 能 反映 可 能 原因 的 错误 信息 。 


编写 一 个 程序 计算 后 缀 表达 式 的 值 。 

a. 写 出 一 个 程序 , 将 包含 (, ), + , —-, *x 和 /等 符号 的 中 缀 表达 式 转 换 成 后 缀 表达 式 。 

b. RAGA RIM BES ASP. 

c. 编写 一 个 程序 将 后 缀 表达 式 转换 成 中 缀 表达 式 。 

编写 只 用 一 个 数组 而 实现 两 个 栈 的 例 程 。 这 些 例 程 不 应 该 声明 溢出 , 除非 数组 中 的 每 个 

单元 都 被 使 用 。 

a. 提出 一 种 数据 结构 支持 栈 push 和 pop 操作 以 及 第 三 种 操作 findMin, 它 返 回 该 数据 结 
构 中 的 最 小 元 素 。 所 有 操作 均 以 O(1) 最 坏 情 形 时 间 运 行 。 

b. HERA, 如 果 我 们 添加 找 出 并 删除 最 小 元 素 的 第 4 种 操作 deleteMin, 那么 至 少 有 一 种 
操作 必然 花费 Q(iogN) 时 间 。( 本 题 需要 阅读 第 7 章 ) 

指出 如 何 用 一 个 数组 实现 三 个 栈 结构 。 

在 2.4 节 中 用 于 计算 斐 波 那 契 数 的 递归 例 程 如 果 对 N = 50 运行 , 栈 空 间 有 可 能 用 完 吗 ? 
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3.35 


3.36 


3.37 


为 什么 ? 

双 端 队列 (deque) 是 由 一 列 项 组 成 的 数据 结构 ,对 该 数据 结构 可 以 进行 下 列 操作 : 

push(x): 将 项 x 插入 到 双 端 队列 的 前 端 。 

pop() : 从 双 端 队列 中 删除 前 端 项 并 将 其 返回 。 

inject(x): 将 项 x 插入 到 双 端 队列 的 尾 端 。 

eject(): 从 双 端 队列 中 删除 尾 端 项 并 将 其 返回 。 

编写 支持 双 端 队列 的 例 程 , 其 中 每 种 操作 均 花 费 O(1) 时 间 。 

编写 以 倒序 打印 双 链 表 的 算法 ,只 使 用 常数 的 附加 空间 。 本 题 意 味 着 , 不 能 使 用 递归 但 

可 以 假设 该 算法 是 一 个 表 成 员 函 数 。 

a. 写 出 自 调整 表 (self-adjusting list) 的 数组 实现 。 在 自 调 整 表 中 , 所 有 的 插入 都 在 前 端 进 
行 。 自 调整 表 添加 一 个 find 操作 ， 当 一 个 元 素 被 find 访问 时 , 它 就 被 移 到 表 的 前 端 
而 并 不 改变 其 余 的 项 的 相对 顺序 。 

b. 写 出 自 调整 表 的 链表 实现 。 


c 设 每 个 元 素 都 有 其 被 访问 的 固定 的 概率 广 。 证 明 那 些 具 有 最 高 访问 概率 的 元 素 都 靠 


近 表 的 前 端 。 
使 用 单 链 表 高 效 实现 栈 类 , 不 用 头 节点 和 尾 节 点 。 
使 用 单 链表 高 效 实现 队列 类 , 不 用 头 节 点 和 尾 节 点 。 
使 用 循环 数组 高 效 实现 队列 类 。 
如 果 从 某 个 节点 p 开始 , 接着 跟 有 足够 数目 的 next 链 将 把 我 们 带 回 到 节点 p, 那么 这 个 
链表 包含 一 个 循环 。p 不 必 是 该 表 的 第 一 个 节点 。 假 设 给 你 一 个 链表 , 它 包含 N 个 节 
点 ; 不 过 N 的 值 是 不 知道 的 。 
a. 设计 一 个 O(N) 算 法 以 确定 该 表 是 否 包 含有 循环 。 你 可 以 使 用 O(N) 的 额外 空间 。 


"b. 重复 (a) 部 分 , 但 是 只 使 用 O(1) 的 额外 空间 。( 提 示 : 使 用 两 个 迭代 器 , 它们 最 初 在 表 


的 开始 处 , 但 以 不 同 的 速度 推进 。) 
实现 队列 的 一 种 方法 是 使 用 一 个 循环 链表 。 在 循环 链表 中 , 最 后 一 个 节点 的 next 链 是 
链接 到 第 1 个 节点 上 的 。 假 设 该 表 不 包含 表 头 , 并 假设 我 们 最 多 可 以 保留 一 个 迭代 器 ， 
它 对 应 表 中 的 一 个 节点 。 对 于 下 列 的 哪 种 表示 方式 , 所 有 的 基本 队列 操作 都 可 以 以 常数 
最 坏 情 形 时间 执 行 ? 证 明 你 的 答案 是 正确 的 。 
a. 保留 一 个 迭代 器 , 它 对 应 该 表 的 第 一 项 。 
b. 保留 一 个 迭代 器 , 它 对 应 该 表 的 最 后 一 项 。 
设 我 们 有 到 单 链表 的 一 个 节点 的 引用 , 而 且 保 证 它 不 是 该 表 的 最 后 的 节点 。 我 们 没有 到 
任何 其 他 节点 的 引用 (除非 通过 后 面 的 一 些 链 )。 描 述 一 个 O(1) 算 法 , 该 算法 逻辑 上 从 
该 链表 删除 存储 在 这 样 一 个 节点 上 的 值 , 同时 保持 链表 的 完整 性 。( 提 示 : 涉及 到 下 一 个 
T o) 
设 单 链表 用 到 一 个 头 节点 和 一 个 尾 节 点 来 实现 。 描 述 下 述 操作 的 常数 时 间 算 法 : 
a. EME 如 由 一 个 迭代 器 给 出 ) 前 插入 一 项 z。 
b. 删除 存储 在 位 置 pCHI — 13x IRR AR HB ) BL 
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第 4 章 W 


对 于 大 量 的 输入 数据 , 链表 的 线性 访问 时 间 太 慢 , 不 宜 使 用 。 本 章 讨论 一 种 简单 的 数据 结 
H, 其 大 部 分 操作 的 运行 时 间 平 均 为 O(log N)。 我 们 还 要 简 述 对 这 种 数据 结构 在 概念 上 的 简单 
的 修改 , 它 保证 了 在 最 坏 情形 下 上 述 的 时 间 界 。 此 外 , 还 讨论 了 第 二 种 修改 ,对 于 长 的 指令 序列 
它 基 本 上 给 出 每 种 操作 的 O(log N) 运 行 时 间 。 

我 们 涉及 到 的 这 种 数据 结构 叫做 二 叉 查 找 树 (binary search tree)。 二 叉 查 找 树 是 两 种 库 集合 
类 TreeSet 和 TreeMap 实现 的 基础 , 它们 用 于 许多 应 用 之 中 。 在 计算 机 科学 中 树 (tree) 是 非常 有 
用 的 抽象 概念 , 因此 , 我 们 将 讨论 树 在 其 他 更 一 般 的 应 用 中 的 使 用 。 在 这 一 章 , 我 们 将 

。 看 到 树 是 如 何 用 于 实现 几 个 流行 的 操作 系统 中 的 文件 系统 的 。 

。 看 到 树 如何 能 够 用 来 计算 算术 表达 式 的 值 。 

。 指出 如 何 利 用 树 支持 以 O(log N) 平 均 时 间 进 行 的 各 种 搜索 操作 ,以 及 如 何 细 化 以 得 到 最 

坏 情 况 时 间 界 O(log N)。 我 们 还 将 讨论 当 数 据 被 存放 在 磁盘 上 时 如 何 来 实现 这 些 操作 。 
© 讨论 并 使 用 TreeSet 类 和 TreeMap 类 。 


4.1 预备 知识 


树 (tree) 可 以 用 几 种 方式 定义 。 定 义 树 的 一 种 自然 的 方式 是 递归 的 方式 。 一 棵 树 是 一 些 节点 
的 集合 。 这 个 集合 可 以 是 空 集 ; 若 不 是 空 集 ， 则 树 由 称 做 根 (root) 的 节点 r 以 及 0 个 或 多 个 非 空 
的 ( 子 ) 树 Ti Tr, tes TAR, 这 些 子 树 中 每 一 棵 的 根 都 被 来 自 根 ~ 的 一 条 有 向 的 边 (edge) 所 
连结 。 

每 一 棵 子 树 的 根 叫做 根 > 的 儿子 (child), 而 ~ 是 每 一 棵 子 树 的 根 的 父亲 (parent)。 图 4-1 显 
示 用 递归 定义 的 典型 的 树 。 





从 递归 定义 中 我 们 发 现 , 一 棵 树 是 N 个 节点 和 N 一 1 条 边 的 集合 , 其 中 的 一 个 节点 叫做 根 。 
存在 N- 1 条 边 的 结论 是 由 下 面 的 事实 得 出 的 : 每 条 边 都 将 某 个 节点 连接 到 它 的 父亲 , 而 除去 根 
节点 外 每 一 个 节点 都 有 一 个 父亲 ( 见 图 4-2)。 
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在 图 4-2 的 树 中 , 节点 A 是 根 。 节 点 下 有 一 个 父亲 A 并 且 有 儿子 K、L 和 Me。 每 一 个 节点 
可 以 有 任意 多 个 儿子 , 也 可 能 是 零 个 儿子 。 没 有 儿子 的 节点 称 为 树叶 (leaf); 上 图 中 的 树叶 是 B. 
C、 万 ,I、.P、Q、K、L、M 和 N。 具 有 相间 父亲 的 节点 为 兄弟 (siblings); 因此 , K. L 和 M 都 是 
兄弟 。 用 类 似 的 方法 可 以 定义 祖父 (grandparent) 和 孙子 (grandchild) 关 系 。 

从 节点 n, 到 n, 的 路 径 (path) 定 义 为 节点 mi, n2, cc, n, 的 一 个 序列 , 使 得 对 于 1i X k 
节点 nn 是;,1 的 父亲 。 这 条 路 径 的 长 (length) 是 为 该 路 径 上 的 边 的 条 数 , B 有 一 1。 从 每 一 个 节点 
到 它 自己 有 一 条 长 为 0 的 路 径 。 注 意 , 在 一 棵 树 中 从 根 到 每 个 节点 恰好 存在 一 条 路 径 。 

对 任意 节点 n, n; 的 深度 (depth) 为 从 根 到 5; 的 唯一 的 路 径 的 长 。 因 此 , 根 的 深度 为 0。m 
的 高 (height) 是 从 n 到 一 片 树叶 的 最 长 路 径 的 长 。 因 此 所 有 的 树叶 的 高 都 是 0。 一 棵 树 的 高 等 于 
它 的 根 的 高 。 对 于 图 4-2 中 的 树 , E 的 深度 为 1 而 高 为 2; 下 的 深度 为 1 而 高 也 是 1; 该 树 的 高 为 
3。 一 棵 树 的 深度 等 于 它 的 最 深 的 树叶 的 深度 ; 该 深度 总 是 等 于 这 棵 树 的 高 。 

如 果 存 在 从 ni 到 n; 的 一 条 路 径 , 那么 n, 是 n; 的 一 位 祖先 (ancestor) 而 ns ny 的 一 个 后 
A (descendant), WWR ni^ n3, BA n, 是 n, 的 真 祖 先 (proper ancestor) fil n; 是 n B9 XU S 
(proper descendant) 。 

4.1.1 树 的 实现 

实现 树 的 一 种 方法 可 以 是 在 每 一 个 节点 除数 据 外 还 要 有 一 些 链 , 使 得 该 节点 的 每 一 个 儿子 
都 有 一 个 链 指向 它 。 然 而 , 由 于 每 个 节点 的 儿子 数 可 以 变化 很 大 并 且 事 先 不 知道 , 因此 在 数据 结 
构 中 建立 到 各 ( 儿 ) 子 节点 直接 的 链接 是 不 可 行 的 , 因为 这 样 会 产生 太 多 浪费 的 空间 。 实 际 上 解 
决 方法 很 简单 : 将 每 个 节点 的 所 有 儿子 都 放 在 树 节 点 的 链表 中 。 图 4-3 中 的 声明 就 是 典型 的 
声明 。 

4-4 指出 一 棵 树 如 何 用 这 种 实现 方法 表示 出 来 。 图 中 向 下 的 箭头 是 指向 firstChild( 第 一 
儿子 ) 的 链 ， 而 水 平 箭头 是 指向 nextSibling( 下 一 兄弟 ) 的 链 。 因 为 ml 链 太 多 了 , 所 以 没有 把 
它们 画 出 。 

在 图 4-4 的 树 中 , 节点 下 有 一 个 链 指向 兄弟 (下 ), 男 一 链 指向 儿子 (71), 而 有 的 节点 这 两 种 链 
都 没有 。 


class TreeNode 
{ 
Object element; 

TreeNode firstChild; 
TreeNode nextSibling; 


) 





图 4-3 树 节 点 的 声明 图 4-4 在 图 4-2 中 所 表示 的 树 的 第 一 儿子 /下 一 兄弟 表示 法 


4.1.2 树 的 遍历 及 应 用 

树 有 很 多 应 用 。 流 行 的 用 法 之 一 是 包括 UNIX 和 DOS 在 内 的 许多 常用 操作 系统 中 的 目录 结 
构 。 图 4-5 是 UNIX 文 件 系 统 中 一 个 典型 的 目录 。 

这 个 目录 的 根 是 /usr( 名 字 后 面 的 星 号 指出 /usr 本身 就 是 一 个 目录 )。/usr 有 三 个 儿子 :mark、 
alex 和 bill, 它们 上 自己 也 都 是 目录 。 因 此 ，/usr 包含 三 个 目录 并 且 没 有 正规 的 文件 。 文 件 名 /usr/ 
mark/book/chl . r 先后 三 次 通过 最 左边 的 子 节点 而 得 到 。 在 第 一 个 /后 的 每 个 /都 表示 一 条 边 ; 结 
果 为 一 全 路 径 名 (pathname)。 这 个 分 级 文件 系统 非常 流行 , 因为 它 能 够 使 得 用 户 逻 辑 地 组 织 数 
据 。 不 仅 如 此 , 在 不 同 目录 下 的 是 个 文件 还 可 以 享有 相同 的 名 字 , 因为 它们 必然 有 从 根 开始 的 不 
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mark* alex* bill* 
book* course* junk junk work* course* 
chlr ch2r  chàr cop3530* cop3212* 
fall0S* ^ spr06* | sumO6* fall05* fall06* 
syl.r syl.r sylr grades progl.r prog2.r prog2r  proglr grades 


图 4-5 UNIX 目录 


同 的 路 径 从 而 具有 不 同 的 路 径 名 。 在 UNIX 文件 系统 中 的 目录 就 是 含有 它 的 所 有 儿子 的 一 个 文 
件 , 因此 , 这 些 目录 几乎 是 完全 按照 上 述 的 类 型 声明 构造 的 9 。 事 实 上 , 按照 UNIX 的 某 些 版 本 ， 
如 果 将 打印 一 个 文件 的 标准 命令 应 用 到 一 个 目录 上 ,那么 在 该 目录 中 的 这 些 文件 名 能 够 在 (与 其 
他 非 ASCII 信息 一 起 的 ) 输 出 中 被 看 到 。 

设 我 们 想 要 列 出 目录 中 所 有 文件 的 名 字 。 输 出 格式 将 是 : 深度 为 d; 的 文件 将 被 d; 次 跳 格 
(tab) 缩 进 后 打印 其 名 。 该 算法 在 图 4-6 中 以 伪 码 给 出 ” 。 


private void listAll( int depth ) 


{ 
printName( depth ); // Print the name of the object 


if( isDirectory( ) ) 
for each file c in this directory (for each child) 
c.listAll( depth + 1 ); 


} 
public void listAll( ) 


{ 
listall( 0 ); 





图 4-6 列 出 分 级 文件 系统 中 目录 的 伪 码 例 程 


算法 的 核心 为 递归 方法 listAl1。 为 了 显示 根 时 不 进行 缩 进 , 该 例 程 需要 从 深度 0 开始 。 这 
里 的 深度 是 一 个 内 部 簿 记 变 量 , 而 不 是 主 调 例 程 能 够 期 望 知道 的 参数 。 因 此 , 驱动 例 程 用 于 将 递 
归 例 程 和 外 界 连接 起 来 。 

算法 逻辑 简单 易 懂 。 文 件 对 象 的 名 字 和 适当 的 跳 格 次 数 一 起 打印 出 来 。 如 果 是 一 个 目录 ， 
那么 以 递归 方式 一 个 一 个 地 处 理 它 所 有 的 儿子 。 这 些 儿 子 均 处 在 下 一 层 的 深度 上 , 因此 需要 缩 
进 一 个 附加 的 空间 。 整 个 输出 在 图 4-7 中 表示 。 

这 种 遍历 策略 叫做 先 序 遍历 (preorder traversal) AAD P, 对 节点 的 处 理工 作 是 在 它 的 
诸 儿 子 节点 被 处 理 之 前 (pre) 进 行 的 。 很 显然 ， 当 该 程序 运行 时 , 第 1 行 对 每 个 节点 恰好 执行 一 
次 , 因为 每 个 名 字 只 输出 一 次 。 由 于 第 1 行 对 每 个 节点 最 多 执行 一 次 , 因此 第 2 行 也 必然 对 每 个 


O 在 UNIX 文件 系统 中 每 个 目录 还 有 一 人 一 项 指向 该 目录 的 父 目 录 。 因 此 ， 从 技术 上 说 ， 
UNIX 文件 系统 不 是 树 , 而 是 类 树 。 
Q 实现 该 算法 的 Java 程序 由 文件 FileSystem. java 联机 提供 。 它 用 到 课文 中 尚未 讨论 的 一 些 Java 特点 。 
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节点 执行 一 次 。 不 仅 如 此 , 对 于 每 个 节点 的 每 一 个 子 节点 第 4 行 最 多 只 能 被 执行 一 次 。 但 是 , JL 
子 的 个 数 恰 好 比 节 点 的 个 数 少 1。 最 后 , 第 4 行 每 执行 一 次 , for 循环 就 迭代 一 次 , 每 当 循环 结束 
时 再 加 上 一 次 。 因 此 , 在 每 个 节点 上 总 的 工作 量 是 常数 。 如 果 有 N 个 文件 名 需要 输出 , 则 运行 
时 间 就 是 O(N)。 


mark 
book 
chl.r 
ch2.r 
ch3.r 
course 
cop3530 
fal 105 
syl.r 
spr06 
syl.r 
sum06 
syl.r 
junk 
alex 
junk 
bill 
work 
course 
cop3212 
fall05 
grades 


fall06 
prog2.r 
progl.r 
grades 


图 4-7 〈 先 序 ) 目 录 列 表 
夯 一 种 遍历 树 的 常用 方法 是 后 序 遍 历 (postorder traversal) 。 在 后 序 遍 历 中 , 一 个 节点 处 的 工 


作 是 在 它 的 诸 儿 子 节点 被 计算 后 进行 的 。 例 如 , 图 4-8 表示 的 是 与 前 面相 同 的 目录 结构 , 其 中 国 
括号 内 的 数字 代表 每 个 文件 占用 的 磁盘 区 块 (disk blocks) 的 个 数 。 





/usr*(1) 
mark*( 1) alex*(1) bill*(1) 
book*(1) course*(1) junk(6) ^ junk(8) work*(1) course*( 1) 
chl.r(3) ch2.((2) ch3.r(4) cop3530*(1) — 
fall05*(1) spr06*(1) sum06*(1) fall05*(1) fall06*(1) 


syll) sylr(5) — sylr(2) grades(3) proglr(4) prog2.r(1) prog2.r(2) progi.r(7) grades(9) 
4-8 经 由 后 序 遍 历 得 到 的 带 有 文件 大 小 的 UNIX 目录 
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由 于 目录 本 身 也 是 文件 , 因此 它们 也 有 大 小 。 设 我 们 想 要 计算 被 该 树 所 有 文件 占用 的 磁盘 
区 块 的 总 数 。 最 自然 的 做 法 是 找 出 含 于 子 目 录 Ausr/mark(30) , /usr/alex(9) fI /usr/bill( 32) H9 KR 
的 个 数 。 于 是 , 磁盘 区 块 的 总 数 就 是 子 目 录 中 的 区 块 的 总 数 (71) 加 上 Ausr 使 用 的 一 个 区 块 , 共 72 
个 区 块 。 图 4-9 中 的 伪 码 方法 size 实现 这 种 遍历 策略 。 


public int size( ) 





{ 
] int totalSize = sizeOfThisFile( ); 


2 if( isDirectory( ) ) 
| 3 for each file c in this directory (for each child) 
| 

4 


totalSize += c.size( ); 


5 return totalSize; 
} 


图 4.9 计算 一 个 目录 大 小 的 伪 码 例 程 

如 果 当 前 对 象 不 是 目录 , 那么 size 只 返回 它 所 占用 的 区 块 数 。 否 则 , 被 该 目录 占用 的 区 块 

数 将 被 加 到 在 其 所 有 子 节 点 (递归 地 ) 发 现 的 区 块 数 中 去 。 为 了 区 别 后 序 遍 历 策略 和 先 序 遍历 策 
略 之 间 的 不 同 , 图 4-10 显示 每 个 目录 或 文件 的 大 小 是 如 何 由 该 算法 产生 的 。 

















3 

2 

4 

10 

syl.r 1 

fall05 2 

syl.r 5 

spr06 6 

syl.r 2 

sum06 3 

cop3530 12 

course 13 
junk 6 
mark 30 
junk 8 
alex 9 
work 1 
grades 3 

progl.r 4 

prog2.r 1 

fall05 9 

prog2.r 2 

progl.r 7 

grades 9 

fall06 19 

cop3212 29 

course 30 
bill 32 
/usr 72 





4-10 pHa size 的 印迹 
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4.2 ”二叉树 


二 叉 树 (binary tree) 是 一 棵 树 ， 其 中 每 个 节点 都 不 能 有 多 于 两 个 的 儿子 。 

4-11 显示 一 棵 由 一 个 根 和 两 棵 子 树 组 成 的 二 又 树 , 子 树 Ti 和 Tk 均 可 能 为 空 。 

二 叉 树 的 一 个 性 质 是 一 棵 平均 二 叉 树 的 深度 要 比 节点 个 数 N 小 得 多 , 这 个 性 质 有 时 很 重要 。 
分 析 表 明 , 其 平均 深度 为 O(V N), 而 对 于 特殊 类 型 的 二 叉 树 , 即 二 叉 查 找 树 (binary search tree), 
其 深度 的 平均 值 是 O(log N)。 不 幸 的 是 , 正如 图 4-12 中 的 例子 所 示 ， 这 个 深度 是 可 以 大 到 
N-1%. 


> 


LN LN 


图 4-11 一 般 二 叉 树 图 4-12 ”最 坏 情 形 的 二 叉 树 


4.2.1 实现 

因为 一 个 二 叉 树 节点 最 多 有 两 个 子 节点 , 所 以 我 们 可 以 保存 直接 链接 到 它们 的 链 。 树 节点 
的 声明 在 结构 上 类 似 于 双 和 链表 的 声明 , 在 声明 中 , 节点 就 是 由 element( 元 素 ) 的 信息 加 上 两 个 到 
其 他 节点 的 引用 (left 和 right) 组 成 的 结构 ( 见 图 4-13)。 





| class BinaryNode 
| { 





// Friendly data; accessible by other package routines 
Object element; // The data in the node 
BinaryNode left; // Left child 
BinaryNode right; // Right child 


图 4-13 二叉树 节点 类 


我 们 习惯 上 在 画 链表 时 使 用 和 矩形 框 画 出 二 叉 树 , 但 是 , 树 一 般 画 成 圆圈 并 用 一 些 直 线 连接 起 
来 , 因为 它们 实际 上 就 是 图 (graph)。 当 涉及 到 树 时 , 我 们 也 不 明显 地 画 出 null 链 , 因为 具有 N 
个 节点 的 每 一 棵 二 叉 树 都 将 需要 N+1 个 null 链 。 

二 叉 树 有 许多 与 搜索 无 关 的 重要 应 用 。 二 叉 树 的 主要 用 处 之 一 是 在 编译 器 的 设计 领域 , 我 
们 现在 就 来 探索 这 个 问题 。 

4.2.2 例子 : 表达 式 树 

图 4-14 显示 一 个 表达 式 树 (expression tree) 的 例子 。 表 达 式 树 的 树叶 是 操作 数 (operand)， 如 
常数 或 变量 名 , 而 其 他 的 节点 为 操作 符 (operator)。 由 于 这 里 所 有 的 操作 都 是 二 元 的 ， 因此 这 棵 
特定 的 树 正好 是 二 叉 树 , 虽然 这 是 最 简单 的 情况 , 但 是 节点 还 是 有 可 能 含有 多 于 两 个 的 儿子 。 一 
个 节点 也 有 可 能 只 有 一 个 儿子 , 如 具有 一 目 减 算 符 (unary minus operator) 的 情形 。 我 们 可 以 将 通 
过 递归 计算 左 子 树 和 右 子 树 所 得 到 的 值 应 用 在 根 处 的 运算 符 上 而 算出 表达 式 树 T 的 值 。 在 本 例 
Hh, 左 子 树 的 值 是 a+ (bx c), 右 子 树 的 值 是 ((d* e) +f) * g， 因 此 整个 树 表示 (a+ (b*c)) + 
(((d*e)*f£)*g). 


Download at http:// www.pinb5i.com/ 


^ 83 


我 们 可 以 通过 递归 地 产生 一 个 带 括号 的 左 表达 式 ， 然后 打印 出 在 根 处 的 运算 符 , 最 后 再 递归 
地 产生 一 个 带 插 号 的 右 表 达 式 而 得 到 一 个 (对 
两 个 插 号 整体 进行 运算 的 ) 中 缀 表达 式 。 这 种 ES 
一 般 的 方法 ( 左 , 节点 , 右 ) 称 为 中 序 遍 历 (in- (9 
order traversal)。 由 于 其 产生 的 表达 式 类 型 ,这 
种 遍历 很 容易 记忆 。 
— d E 
略 应 用 于 上 面 的 树 , 则 将 输出 abc x* + de * f+ g* +, 显而易见 , CRE 3.6.3 节 中 的 后 
缀 表示 法 。 这 种 遍历 策略 一 般 称 为 后 序 遍 历 。 我 们 稍 早已 在 4.1 节 见 过 这 种 遍历 方法 。 

第 三 种 遍历 策略 是 先 打 印 出 运算 符 , 然后 递归 地 打印 出 右 子 树 和 左 子 树 。 此 时 得 到 的 表达 
式 ++axbcx + * defg 是 不 太 常用 的 前 组 (prefix) 记 法 , 这 种 遍历 策略 为 先 序 遍历 ， 稍 早 我 们 也 
在 4.1 节 见 过 。 以 后 , 我 们 还 要 在 本 章 讨论 这 些 遍 历 方法 。 
构造 表达 式 树 

我 们 现在 给 出 一 种 算法 来 把 后 缀 表达 式 转 变 成 表达 式 树 。 由 于 我 们 已 经 有 了 将 中 缀 表达 式 
转变 成 后 缀 表达 式 的 算法 , 因此 我 们 能 够 从 这 两 种 常用 类 型 的 输入 生成 表达 式 树 。 这 里 所 描述 
的 方法 酷似 3.6.3 节 的 后 缀 求 值 算法 。 我 们 一 次 一 个 符号 地 读 入 表达 式 。 如 果 符 号 是 操作 数 ， 那 
么 就 建立 一 个 单 节 点 树 并 将 它 推 人 栈 中 。 如 果 符 号 是 操作 符 , 那么 就 从 栈 中 弹出 两 棵 树 Ti 和 
TT, 先 弹 出 ) 并 形成 一 棵 新 的 树 , 该 树 的 根 就 是 操作 符 , 它 的 左 、 右 儿子 分 别 是 T; 和 Ti。 然 
后 将 这 棵 新 树 压 人 栈 中 。 

来 看 一 个 例子 。 设 输入 为 





ab+cdet+ xx 


前 两 个 符号 是 操作 数 , 因此 创建 两 棵 单 节 点 树 并 将 它们 压 人 栈 中 ” 。 
(a) (b) 


E, +H REA, 因此 两 棵 树 被 弹出 ,一 棵 新 的 树 形 成 ,并 被 压 人 栈 中 。 





然后 , c dM e REA, 在 每 个 单 节 点 树 创建 后 , 对 应 的 树 被 压 人 栈 中 。 
nonse 


(2 © (9 (9 
(a ) b 


O 为 了 方便 起 见 , 我 们 将 让 图 中 的 栈 从 左 到 右 增长 。 
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接 下 来 读 人 “+ ' 号 , 因此 两 棵 树 合并 。 
ee he ee ee ES 





4.3 查找 树 ADT 一 一 二 叉 查 找 树 


二 叉 树 的 一 个 重要 的 应 用 是 它们 在 查找 中 的 使 用 。 假 设 树 中 的 每 个 节点 存储 一 项 数据 。 在 
我 们 的 例子 中 , 虽然 任意 复杂 的 项 在 Java 中 都 容易 处 理 , 但 为 简单 起 见 还 是 假设 它们 是 整数 。 还 


将 假设 所 有 的 项 都 是 互 异 的 ,以 后 再 处 理 有 重复 元 a 
的 情况 。 
使 二 叉 树 成 为 二 叉 查 找 树 的 性 质 是 , 对 于 树 中 So 
的 每 个 节点 X， 它 的 左 子 树 中 所 有 项 的 值 小 于 X CS O 
(3) 


中 的 项 , 而 它 的 右 子 树 中 所 有 项 的 值 大 于 X 中 的 

项 。 注 意 , 这 意味 着 该 树 所 有 的 元 素 可 以 用 某 种 一 

致 的 方式 排序 。 在 图 4-15 P, 左边 的 树 是 二 叉 查 图 4-15 两 棵 二 叉 树 ( 只 有 左边 的 树 是 查找 树 ) 
找 树 , 但 右边 的 树 则 不 是 。 右 边 的 树 在 其 项 是 6 的 

节点 (该 节点 正好 是 根 节 点 ) 的 左 子 树 中 ,有 一 个 节点 的 项 是 7。 

现在 给 出 通常 对 二 叉 查 找 树 进行 的 操作 的 简要 描述 。 注 意 , 由 于 树 的 递归 定义 , 通常 是 递归 
地 编写 这 些 操作 的 例 程 。 因 为 二 叉 查 找 树 的 平均 深度 是 O(log N), 所 以 一 般 不 必 担 心 栈 空间 被 
用 尽 。 

二 叉 查 找 树 要 求 所 有 的 项 都 能 够 排序 。 要 写 出 一 个 一 般 的 类 , 我 们 需要 提供 一 个 interface 
(接口 ) 来 表示 这 个 性 质 。 这 个 接口 就 是 Comparable, 第 1 章 曾 经 描述 过 。 该 接口 告诉 我 们 , 树 中 
的 两 项 总 可 以 使 用 compareTo 方法 进行 比较 。 由 此 , 我 们 能 够 确定 所 有 其 他 可 能 的 关系 。 特 别 是 
我 们 不 使 用 equals 方法 , 而 是 根据 两 项 相等 当 且 仅 当 compareTo 方 法 返回 0 来 判断 相等 。 另 一 种 
方法 是 使 用 一 个 函数 对 象 , 将 在 4.3.1 节 中 描述 。 图 4-16 还 指出 , BinaryNode 类 象 链表 类 中 的 节 
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点 类 一 样 , JR — T Hi RIS. 

| ] private static class BinaryNode<AnyType> 
2-4 
3 // Constructors 
E BinaryNode( AnyType theElement ) 
5 ( this( theElement, null, null ); ] 
6 
7 BinaryNode( AnyType theElement, BinaryNode<AnyType> lt, BinaryNode<AnyType> rt ) 
8 ( element = theElement; left = 1t; right = rt; ) 
9 
10 AnyType element; // The data in the node 


BinaryNode<AnyType> left; — // Left child 


12 BinaryNode<AnyType> right; // Right child 
13 } 








4-16  BinaryNode 类 


4-17 显示 BinarySearchTree 类 架构 , 其 中 唯一 的 数据 域 是 对 根 节 点 的 引用 , 这 个 引用 对 
于 空 树 来 说 是 nul1。 这 些 public 方法 使 用 了 调用 诸 private 递归 方法 的 一 般 技 巧 。 


现在 描述 某 些 私有 方法 。 





— — — —— — — — — — 











] public class BinarySearchTree<AnyType extends Comparable<? super AnyType>> 


3 private static class BinaryNode<AnyType> 
3 ( /* Figure 4.16 */ } 
5 
6 private BinaryNode«AnyType» root; 
7 
8 public BinarySearchTree( ) 
9 ( root = null; ) | 
10 
11 public void makeEmpty( ) 
12 ( root = null; } 
13 public boolean isEmpty( ) 
14 ( return root == null; ) | 
is | 
16 public boolean contains( AnyType x ) 
17 ( return contains( x, root ); ) 
18 public AnyType findMin( ) 
19 { if( isEmpty( ) ) throw new UnderflowException( ); 
20 return findMin( root ).element; 
21 } 
22 public AnyType findMax( ) 
23 { if( isEmpty( ) ) throw new UnderflowException( ); 
H , return findMax( root ).element; 
26 public void insert( AnyType x ) 
27 ( root = insert( x, root ); } 


28 public void remove( AnyType x ) 





图 4-17 二 叉 查找 树 架 构 
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29 { root = remove( x, root ); } 
| 30 public void printTree( ) 
31 ( /* Figure 4.56 */ } 
32 
33 private boolean contains( AnyType x, BinaryNode<AnyType> t ) 
34 { /* Figure 4.18 */ ) 
35 phos BinaryNode<AnyType> findMin( BinaryNode<AnyType> t ) 
| 36 { /* Figure 4.20 */ } | 
| 37 private BinaryNode<AnyType> findMax( Sr yer t) 
| 38 { /* Figure 4.20 */ } 
39 
40 private BinaryNode<AnyType> insert( AnyType x, THREAD ERU t) 
41 { /* Figure 4.22 */ } 
42 private BinaryNode<AnyType> remove( AnyType x, BinaryNode<AnyType> t ) 
43 ( /* Figure 4.25 */ } 
44 private void printTree( BinaryNode<AnyType> t ) 
45 ( /* Figure 4.56 */ } 
.46 ] 





图 4-17 (4) 


4.3.1 contains 方法 

如 果 在 树 T 中 存在 含有 项 X 的 节点 , 那么 这 个 操作 需要 返回 true， 如 果 这 样 的 节点 不 存在 
则 返回 false。 树 的 结构 使 得 这 种 操作 很 简单 。 如 果 TEZE, 那么 可 以 就 返回 false. Bil, 
如 果 存 储 在 下 处 的 项 是 X, 那么 可 以 返回 true, BM, 我 们 对 树 T 的 左 子 树 或 右 子 树 进行 一 次 
递归 调用 , 这 依赖 于 X 与 存储 在 工 中 的 项 的 关系 。 图 4-18 中 的 代码 就 是 对 这 种 方法 的 一 种 
实现 。 











了 ** 
2 * Internal method to find an item in a subtree. 
3 * param x is item to search for. 
4 * 8param t the node that roots the subtree. 
5 * @return node containing the matched item. 
6 wf 
7 private boolean contains( AnyType x, BinaryNode<AnyType> t ) 
8 | 
9 if( t == null ) 
10 return false; 
11 
12 int compareResult = x.compareTo( t.element ); 
13 
14 if( compareResult < 0 ) 
15 return contains( x, t.left ); 
| 16 else if( compareResult > 0 ) 
17 return contains( x, t.right ); 
18 else 
19 return true; // Match 
(20 ) — | 











图 4-18 二 叉 查 找 树 的 contains 操作 
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注意 测试 的 顺序 。 关 键 的 问题 是 首先 要 对 是 否 空 树 进行 测试 , 否则 我 们 就 会 生成 一 个 企图 
通过 mall 引用 访问 数据 域 的 NullPointerException 异常 。 剩 下 的 测试 应 该 使 得 最 不 可 能 的 情况 
安排 在 最 后 进行 。 还 要 注意 , 这 里 的 两 个 递归 调用 事实 上 都 是 尾 递归 并 且 可 以 用 一 个 while 循环 
很 容易 地 代替 。 尾 递归 的 使 用 在 这 里 是 合理 的 ,因为 算法 表达 式 的 简明 性 是 以 速度 的 降低 为 代 
价 的 , 而 这 里 所 使 用 的 栈 空间 的 量 也 只 不 过 是 O(log N) 而 已 。 图 4-19 显示 需要 使 用 一 个 畏 数 对 
象 而 不 是 要 求 这 些 项 是 Comparable 的 。 它 模仿 1.6 节 的 风格 。 






ublic class BinarySearchTree<AnyType> 






private BinaryNode«AnyType» root; 
private Comparator<? super AnyType» cmp; 






public BinarySearchTree( ) 
















( this( null ); ) 

9 public BinarySearchTree( Comparator«? super AnyType» c ) 
10 { root = null; cmp = c; ) 

11 

12 private int myCompare( AnyType lhs, AnyType rhs ) 
13 { 

14 if( cmp != null ) 

15 return cmp.compare( lhs, rhs ); 

16 else 

17 return ((Comparable)lhs).compareTo( rhs ); 
18 } 

19 
20 private boolean contains( AnyType x, BinaryNode<AnyType> t ) 
21 ( 
22 if( t == null ) 
23 return false; 
24 
25 int compareResult = myCompare( x, t.element ); 
26 
27 if( compareResult « 0 ) x 
28 return contains( x, t.left ); 
29 else if( compareResult » 0 ) 


30 return contains( x, t.right ); 
31 else 

32 return true; // Match 

33 } 


// Remainder of class is similar with calls to compareTo replaced by myCompare 





图 4-19 ”对 使 用 孙 数 对 象 实现 二 叉 查 找 树 的 注释 


4.3.2 findMin 方法 和 findMax 方法 

这 两 个 private 例 程 分 别 返回 树 中 包含 最 小 元 和 最 大 元 的 节点 的 引用 。 为 执行 findMin, 从 
根 开始 并 且 只 要 有 左 儿 子 就 向 左 进行 。 终 止 点 就 是 最 小 的 元 素 。findMax 例 程 除 分 支 朝向 右 儿子 
外 其 余 过 程 相 同 。 
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这 种 递归 是 如 此 容易 以 至 于 许多 程序 设计 员 不 厌 其 烦 地 使 用 它 。 我 们 用 两 种 方法 编写 这 两 
个 例 程 , 用 递归 编写 findMin 而 用 非 递归 编写 findMax( 见 图 4-20)。 





] *x* 

2 * Internal method to find the smallest item in a subtree. 
3 * @param t the node that roots the subtree. 

4 * @return node containing the smallest item. 

5 */ 

| 6 private BinaryNode<AnyType> findMin( BinaryNode<AnyType> t) 

7 ( 

8 if( t == null ) 

9 return null; 

10 else if( t.left == null ) 
11 return t; 

12 return findMin( t.left ); 

13 ) 

14 

15 g" 


16 * Internal method to find the largest item in a subtree. 
* @param t the node that roots the subtree, 
18 * @return node containing the largest item. 








19 * 

20 private BinaryNode<AnyType> findMax( BinaryNode<AnyType> t ) 
21 | 

22 if( t != null ) 

23 while( t.right != null ) 

24 t = t.right; 

25 

26 return t; 





———i 


图 4-20 ”对 二 叉 查 找 树 的 findMin 的 递归 实现 和 £indMax 的 非 递归 实现 


注意 ,我 们 是 如 何 小 心地 处 理 空 树 的 退化 情况 的 。 虽 然 这 样 做 总 是 重要 的 , 但 是 特别 在 递归 
程序 中 它 尤 其 重要 。 此 外 , 还 要 注意 , 在 findMax 中 对 上 上 的 改变 是 安全 的 , 因为 我 们 只 用 到 引用 
的 拷贝 来 进行 工作 。 不 管 怎么 说 , 还 是 应 该 随时 特别 小 心 , 因为 诸如 t.righ = t.right ,right ` 
这 样 的 语句 将 会 产生 一 些 变化 。 | 
4.3.3 insert 方法 

进行 插入 操作 的 例 程 在 概念 上 是 简单 的 。 为 了 将 X 插 人 到 树 工 中 , 你 可 以 像 用 contains 那 


样 沿 着 树 查找 。 如 果 找到 X, 则 什么 也 不 用 做 O O 
(或 做 一 些 "更 新 ")。 否 则 , 将 X 插入 到 遍历 的 Ye WW OF WD 
路 径 上 的 最 后 一 点 上 。 图 4-21 显示 实际 的 插入 

情况 。 为 了 插入 5, 我 们 遍历 该 树 就 好 像 在 运 Ce) E Ome 

行 contains。 在 具有 关键 字 4 的 节点 处 , 我 们 © oko 


需要 向 右 行进 , 但 右边 不 存在 子 树 , 因此 5 不 
在 这 棵 树 上 ， 从 而 这 个 位 置 就 是 所 要 插入 的 .图 4-21 在 插入 5 以 前 和 以 后 的 二 叉 查找 树 
位 置 。 

重复 元 的 插入 可 以 通过 在 节点 记录 中 保留 一 个 附加 域 以 指示 发 生 的 频率 来 处 理 。 这 对 整个 
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的 树 增加 了 某 些 附加 空间 , 但 是 , 却 比 将 重复 信息 放 到 树 中 要 好 ( 它 将 使 树 的 深度 变 得 很 大 )。 当 
然 , 如 果 compareTo 方法 使 用 的 关键 字 只 是 一 个 更 大 结构 的 一 部 分 , 那么 这 种 方法 行 不 通 , 此 时 

我 们 可 以 把 具有 相同 关键 字 的 所 有 结构 保留 在 一 个 辅助 数据 结构 中 , 如 表 或 是 另 一 棵 查找 树 。 
图 4-22 显示 插入 例 程 的 代码 。 由 于 t 引用 该 树 的 根 , 而 根 又 在 第 一 次 插 人 时 变化 , 因此 
insert 被 写成 一 个 返回 对 新 树 根 的 引用 的 方法 。 第 15 行 和 第 17 行 递归 地 插入 x 到 适当 的 子 树 中 。 


—— 











P 一 
— 
* 
» 


* Internal method to insert into a subtreé. 








3 * @param x the item to insert. 

4 * (param t the node that roots the subtree. 

5 * @return the new root of the subtree. 

6 *j 

7 private BinaryNode<AnyType> insert( AnyType x, BinaryNode<AnyType> t ) 
8 { 

9 if( t == null ) 

10 return new BinaryNode<AnyType>( x, null, null ); 
11 

12 int compareResult = x.compareTo( t.element ); 

13 

14 if( compareResult < 0 ) 

15 t.left = insert( x, t.left ); 

16 else if( compareResult » 0 ) 

17 t.right = insert( x, t.right ); 

18 else 





19 ; // Duplicate; do nothing 
20 return t; 
21 } 


图 4-22 ”将 元 素 插 人 到 二 叉 查 找 树 的 例 程 








4.3.4 remove 方法 

正如 许多 数据 结构 一 样 , 最 困难 的 操作 是 remove( 删 除 )。 一 旦 我 们 发 现 要 被 删除 的 节点 ,就 
需要 考虑 几 种 可 能 的 情况 。 

如 果 节 点 是 一 片 树叶 , 那么 它 可 以 被 立即 删除 。 如 果 节 点 有 一 个 儿子 , 则 该 节点 可 以 在 其 父 节点 
调整 自己 的 链 以 绕 过 该 节点 后 被 删除 (为 了 清楚 起 见 , 我 们 将 明确 地 画 出 链 的 指向 )， 见 图 4-23。 

复杂 的 情况 是 处 理 具 有 两 个 儿子 的 节点 。 一 般 的 删除 策略 是 用 其 右 子 树 的 最 小 的 数据 (很 容 
易 找 到 ) 代 替 该 节点 的 数据 并 递归 地 删除 那个 节点 (现在 它 是 空 的 )。 因 为 右 子 树 中 的 最 小 的 节点 
不 可 能 有 左 儿 子 , 所 以 第 二 次 remove 要 容易 。 图 4-24 显示 一 棵 初始 的 树 及 其 中 一 个 节点 被 删除 
后 的 结果 。 要 被 删除 的 节点 是 根 的 左 儿子 ; 其 关键 字 是 2。 它 被 其 右 子 树 中 的 最 小 数据 3 所 代 
替 , 然后 关键 字 是 3 的 原 节 点 如 前 例 那样 被 删除 。 


Q te) 
(6) 6) S O ZW 
OM OI G) © 
3) G) o 9 


图 4-23. 具有 一 个 儿子 的 节点 4 删除 前 后 的 情况 图 4-24 ”删除 具有 两 个 儿子 的 节点 2 前 后 的 情况 
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4-25 中 的 程序 完成 删除 的 工作 , 但 它 的 效率 并 不 高 , 因为 它 沿 该 树 进行 两 趟 搜索 以 查找 
和 删除 右 子 树 中 最 小 的 节点 。 通 过 写 一 个 特殊 的 removeMin 方法 可 以 容易 地 改变 这 种 效率 不 高 
的 缺点 , 我 们 这 里 将 它 略 去 只 是 为 了 简明 。 


/** 
| * Internal method to remove from a subtree. 


KN 








3 * @param x the item to remove. 

4 * (param t the node that roots the subtree. 

5 * ereturn the new root of the subtree. 

6 ay 

7 private BinaryNode<AnyType> remove( AnyType x, BinaryNode<AnyType> t) 
8 { 

9 if( t == null ) 

10 return t; // Item not found; do nothing 

| 1H 
| 12 int compareResult = x.compareTo( t.element ); 

13 

14 if( compareResult < 0 ) 

15 t.left = remove( x, t.left ); 

16 else if( compareResult » 0 ) 

17 t.right = remove( x, t.right ); 

18 else if( t.left != null && t.right != null ) // Two children 
19 ( 
20 t.element = findMin( t.right ).element; 
21 t.right » remove( t.element, t.right ); 
22 ) 
23 else 


24 t= ( t.left [= null ) ? t.left : t.right; 
25 return t; 
26 

EARN MEN ERE E 


图 4-25 ”二 又 查找 树 的 删除 例 程 


如 果 删 除 的 次 数 不 多 , 通常 使 用 的 策略 是 懒 情 删 除 (lazy deletion): 当 一 个 元 素 要 被 删除 时 , 
它 仍 留 在 树 中 , 而 只 是 被 标记 为 删除 。 这 特别 是 在 有 重复 项 时 很 常用 ,因为 此 时 记录 出 现 频 率 数 
的 域 可 以 减 1。 如 果树 中 的 实际 节点 数 和 “被 删除 "的 节点 数 相同 , 那么 树 的 深度 预计 只 上 升 一 个 
小 的 常数 (为 什么 ?), 因此 , 存在 一 个 与 懒惰 删除 相关 的 非常 小 的 时 间 损 耗 。 再 有 ， 如果 被 删除 
的 项 是 重新 插 和 人 的, 那么 分 配 一 个 新 单元 的 开销 就 避免 了 。 
4.3.5 平均 情况 分 析 

直观 上 , 我 们 期 望 前 一 节 所 有 的 操作 都 花费 O(log N) 时 间 , 因为 我 们 用 常数 时 间 在 树 中 降 
低 了 一 层 , 这 样 一 来 , 对 其 进行 操作 的 树 大 致 减 小 一 半 左 右 。 因 此 ,所 有 操作 的 运行 时 间 都 是 
Old), 其 中 a 是 包含 所 访问 的 项 的 节点 的 深度 。 

我 们 在 本 节 要 证 明 , 假设 所 有 的 插 人 序列 都 是 等 可 能 的 , 则 树 的 所 有 节点 的 平均 深度 为 
O(log N)。 

一 棵 树 的 所 有 节点 的 深度 的 和 称 为 内 部 路 径 长 (internal path length)。 我 们 现在 将 要 计算 二 
叉 查 找 树 平均 内 部 路 径 长 , 其 中 的 平均 是 对 向 二 叉 查找 树 中 所 有 可 能 的 插 人 序列 进行 的 。 

S D(N) 是 具有 N 个 节点 的 某 棵 树 工 的 内 部 路 径 长 ，D(1) 20. — N 节点 树 由 一 棵 i 节 
点 左 子 树 和 一 棵 (N 一 i 一 1)- 节 点 右 子 树 以 及 深度 0 处 的 一 个 根 节点 组 成 , 其 中 OIN, 
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D(i) 为 根 的 左 子 树 的 内 部 路 径 长 。 但 是 在 原 树 中 , 所 有 这 些 节点 都 要 加 深 一 度 。 同 样 的 结论 对 
于 右 子 树 也 成 立 。 因 此 我 们 得 到 递 推 关系 


D(N)=D(i)+ D(N-i-1)+N-1 
如 果 所 有 子 树 的 大 小 都 等 可 能 地 出 现 , 这 对 于 二 叉 查 找 树 是 成 立 的 (因为 子 树 的 大 小 只 依赖 于 第 
一 个 插 人 到 树 中 的 元 素 的 相对 的 秩 (rank)), 但 对 二 叉 树 不 成 立 , 那么 D(i) 和 D(N 一 i 一 1) 的 平 . 


均值 都 是 (1/N) DDU). F 
D(N) = NL DG) I+ N-1 


在 第 7 章 将 遇 到 并 求解 这 个 递 推 式 , 得 到 的 平均 值 为 D(N)= O(N log N)。 因 此 任意 节点 预期 
的 深度 为 O(log N)。 作 为 一 个 例子 , 图 4-26 所 示 随 机 生成 的 500 个 节点 的 树 的 节点 期 望 深度 为 
9.98。 


| Q —M 
E S) 
ai d | | | 
| 


图 4-26 一 棵 随机 生成 的 二 叉 查 找 树 


由 这 个 结果 似乎 可 以 立即 看 出 上 一 节 讨 论 的 所 有 操作 的 平均 运行 时 间 是 O(log N), 但 这 并 
不 完全 正确 。 原 因 在 于 删除 操作 , 我 们 并 不 清楚 是 否 所 有 的 二 又 查 找 树 都 是 等 可 能 出 现 的 。 特 
别 是 上 面 描述 的 删除 算法 有 助 于 使 得 左 子 树 比 右 子 树 深度 深 , 因为 我 们 总 是 用 右 子 树 的 一 个 节 
点 来 代替 删除 的 节点 。 这 种 方法 的 准确 的 效果 仍然 是 未 知 的 , 但 它 似乎 只 是 理论 上 的 悬念 。 业 
已 证 明 ， 如 果 我 们 交替 插 人 和 删除 8 (NT), 那么 树 的 期 望 深度 将 是 B(VN)。 在 25 万 次 随机 
insert/remove 对 操作 后 , 图 4-26 中 右 沉 的 树 看 起 来 明显 地 不 平衡 (平均 深度 =12.51)， 见 图 4-27。 

在 删除 操作 中 , 我 们 可 以 通过 随机 选取 右 子 树 的 最 小 元 素 或 左 子 树 的 最 大 元 素来 代替 被 删 
除 的 元 素 以 消除 这 种 不 平衡 问题 。 这 种 做 法 明显 消除 了 上 述 偏 向 并 使 树 保持 平衡 , 但 是 , 没有 人 
实际 上 证 明 过 这 一 点 。 无 论 如 何 , 这 种 现象 似乎 主要 是 理论 上 的 问题 , 因为 对 于 小 的 树 上 述 效果 
根本 不 明显 , 甚至 更 奇怪 。 如 果 使 用 o( NN?*) 对 insert/remove 操作 , 那么 树 似乎 可 以 得 到 平衡 ! 

上 面 的 讨论 主要 是 说 明 , 决定 “平均 "意味 着 什么 一 般 是 极其 困难 的 , 可 能 需要 一 些 假 设 , 这 
些 假设 可 能 合理 , 也 可 能 不 合理 。 不 过 , 在 没有 删除 或 是 使 用 懒惰 删除 的 情况 下 , 我们 可 以 断 
A: 上 述 那 些 操作 的 平均 运行 时 间 都 是 O(log N)。 除 像 上 面 讨 论 的 一 些 个 别 情形 外 , 这 个 结果 
与 实际 观察 到 的 情形 是 非常 一 致 的 。 


Download at http:// www.pinb5i.com/ 


92 第 4 章 


o ji i 
PIN 
AQ \ | 


427 在 B(N?) 次 insert/remove 对 操作 后 的 二 叉 查 找 树 


如 果 向 一 棵 树 输 入 预先 排 好 序 的 数据 , 那么 一 连 串 insert 操作 将 花费 二 次 的 时 间 , 而 链表 
实现 的 代价 会 非常 巨大 , 因为 此 时 的 树 将 只 由 那些 没有 左 儿 子 的 节点 组 成 。 一 种 解决 办 法 就 是 
要 有 一 个 称 为 平衡 (balance) 的 附加 的 结构 条 件 : 任何 节点 的 深度 均 不 得 过 深 。 

许多 一 般 的 算法 都 能 实现 平衡 树 。 但 是 , 大 部 分 算法 都 要 比 标准 的 二 叉 查找 树 复杂 得 多 ,而 
且 更 新 要 平均 花费 更 长 的 时 间 。 不 过 , 它们 确实 防止 了 处 理 起 来 非常 麻烦 的 一 些 简 单 情 形 。 下 
mi, 我 们 将 介绍 最 古老 的 一 种 平衡 查找 树 ， 即 AVL 树 。 

另外 , 较 新 的 方法 是 放弃 平衡 条 件 ,， 允许 树 有 任意 的 深度 , 但 是 在 每 次 操作 之 后 要 使 用 一 个 
调整 规则 进行 调整 ,使 得 后 面 的 操作 效率 要 高 。 这 种 类 型 的 数据 结构 一 般 属于 自 调整 (self-adjust- 
ing) 类 结构 。 在 二 叉 查找 树 的 情况 下 , 对 于 任意 单个 操作 我 们 不 再 保证 O(log N) 的 时 间 界 , 但 是 
可 以 证 明 任 意 连 续 M. 次 操作 在 最 坏 的 情形 下 花费 时 间 O(M log N)。 一 般 这 足以 防止 令 人 杯 手 
的 最 坏 情 形 。 我 们 将 要 讨论 的 这 种 数据 结构 叫做 伸展 树 (splay tree); 它 的 分 析 相 当 复杂 , 我 们 将 
在 第 11 章 讨论 。 


4.4 AVL 


AVL(Adelson- Velskii 和 Landis) 树 是 带 有 平衡 条 件 (balance condition) 的 二 叉 查 找 树 。 这 个 平 
衡 条 件 必 须要 容易 保持 , 而 且 它 保证 树 的 深度 须 是 O(log N)。 最 简单 的 想法 是 要 求 左 右 子 树 具 
有 相同 的 高 度 。 如 图 4-28 所 示 , 这 种 想法 并 不 强求 树 的 深度 要 浅 。 

另 一 种 平衡 条 件 是 要 求 每 个 节点 都 必须 有 相同 高 度 的 左 子 树 和 右 子 树 。 如 果 空 子 树 的 高 度 
定义 为 -1( 通 常 就 是 这 么 定义 ), 那么 只 有 具有 2* 一 1 个 节点 的 理想 平衡 树 (perfectly balanced 
tree) 满 足 这 个 条 件 。 因 此 , 虽然 这 种 平衡 条 件 保证 了 树 的 深度 小 , 但 是 它 太 严格 而 难以 使 用 , 需 
要 放宽 条 件 。 

一 棵 AVL 树 是 其 每 个 节点 的 左 子 树 和 右 子 树 的 高 度 最 多 差 1 的 二 叉 查 找 树 ( 空 树 的 高 度 定 
义 为 -1)。 在 图 429 中 , 左边 的 树 是 AVL A, 但 是 右边 的 树 不 是 。 每 一 个 节点 (在 其 节点 结构 
中 ) 保 留 高 度 信息 。 可 以 证 明 , 粗略 地 说 , 一 个 AVL 树 的 高 度 最 多 为 1.44 log(N +2) -1.328， 
但 是 实际 上 的 高 度 只 略 大 于 log N。 作 为 例子 , 图 4-30 显示 了 一 棵 具有 最 少 节点 (143) 高 度 为 9 
的 AVL 树 。 这 棵 树 的 左 子 树 是 高 度 为 7 且 大 小 最 小 的 AVL 树 , 右 子 树 是 高 度 为 8 且 大 小 最 小 的 
AVL 树 。 它 告诉 我 们 , 在 高 度 为 h 的 AVL 树 中 , 最 少 节点 数 S(h) 由 S(h)=S(h-1) + S(h- 
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2)+1 8H. XP h 20, S(h) 21; h=1, S(h) 2-2, BR SCA) S SEDOIESCRCEUDIRO, 由 此 推 
出 上 面 提 到 的 关于 AVL 树 的 高 度 的 界 。 


© 7 
aí GG RQ ©® 
a) (50 CU (4) 
© G) © 
图 4-28 ”一 标 坏 的 二 叉 树 。 只 要 求 在 图 4-29 AMR LERH, 
根 节点 平衡 是 不 够 的 只 有 左边 的 树 是 AVL 树 


4-30 ”高 度 为 9 的 最 小 的 AVL 树 


因此 , 除去 可 能 的 插 人 外 (我 们 将 假设 懒惰 删除 ), 所 有 的 树 操 作 都 可 以 以 时 间 O(log N) 执 
行 。 当 进行 插 人 操作 时 , 我 们 需要 更 新 通 向 根 节点 路 径 上 那些 节点 的 所 有 平衡 信息 , 而 插入 操作 
隐 含 着 困难 的 原因 在 于 , 插入 一 个 节点 可 能 破坏 AVL 树 的 特性 (例如 , 将 6 插入 到 图 4-29 中 的 
AVL 树 中 将 会 破坏 关键 字 为 8 的 节点 处 的 平衡 条 件 )。 如 果 发 生 这 种 情况 , 那么 就 要 在 考虑 这 一 
步 插 入 完成 之 前 恢复 平衡 的 性 质 。 事实 上 , 这 总 可 以 通过 对 树 进 行 简单 的 修正 来 做 到 , 我 们 称 其 
为 旋转 (rotation) o 

在 插入 以 后 , 只 有 那些 从 插入 点 到 根 节点 的 路 径 上 的 节点 的 平衡 可 能 被 改变 , 因为 只 有 这 些 
节点 的 子 树 可 能 发 生变 化 。 当 我 们 沿 着 这 条 路 径 上 行 到 根 并 更 新 平衡 信息 时 , 可 以 发 现 一 个 节 
点 , 它 的 新 平衡 破坏 了 AVL 条件。 我 们 将 指出 如 何在 第 一 个 这 样 的 节点 ( 即 最 深 的 节点 ) 重 新 平 
WRR, 并 证 明 这 一 重新 平衡 保证 整个 树 满 足 AVL 性 质 。 

我 们 把 必须 重新 平衡 的 节点 叫做 ce 由 于 任意 节点 最 多 有 两 个 儿子 ,因此 出 现 高 度 不 平衡 就 
需要 a 点 的 两 棵 子 树 的 高 度 差 2。 容 易 看 出 ,这 种 不 平衡 可 能 出 现在 下 面 四 种 情况 中 : 
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1. 对 a 的 左 儿 子 的 左 子 树 进行 一 次 插入 。 
2. 对 a 的 左 儿 子 的 右 子 树 进行 一 次 插入 。 
3. 对 a 的 右 儿 子 的 左 子 树 进行 一 次 插入 。 
4. 对 a 的 右 儿子 的 右 子 树 进行 一 次 插入 。 
情形 1 和 4 是 关于 a 点 的 镜像 对 称 , 而 2 和 3 是 关于 a 点 的 镜像 对 称 。 因 此 , 理论 上 只 有 两 种 情 


. UL, 当然 从 编程 的 角度 来 看 还 是 四 种 情形 。 


第 一 种 情况 是 插 人 发 生 在 “外 边 "的 情况 ( 即 左 - 左 的 情况 或 右 - 右 的 情况 )， 该 情况 通过 对 
树 的 一 次 单 旋转 (single rotation) 而 完成 调整 。 第 二 种 情况 是 插 人 发 生 在 “内 部 "的 情形 ( 即 左 — K 
的 情况 或 右 - 左 的 情况 ), 该 情况 通过 稍微 复杂 些 的 双 旋 转 (double rotation) 来 处 理 。 我 们 将 会 看 
到 , 这 些 都 是 对 树 的 基本 操作 , 它们 多 次 用 在 一 些 平衡 树 算法 中 。 本 节 其 余部 分 将 描述 这 些 旋 
转 , 证 明 它 们 足以 保持 树 的 平衡 , 并 顺便 给 出 AVL 树 的 一 种 非 正 式 的 实现 。 第 12 章 将 描述 其 他 
的 平衡 树 方法 , 这 些 方法 着 眼 于 AVL 树 的 更 仔细 的 实现 。 
4.4.1 单 旋转 

图 4-31 显示 了 单 旋转 如 何 调整 情形 1。 旋 转 前 的 图 在 左边 , 而 旋转 后 的 图 在 右边 。 让 我 们 来 
分 析 具 体 的 做 法 。 节 点 ko 不 满足 AVL 平衡 性 质 , 因为 它 的 左 子 树 比 右 子 树 深 2 层 (图 中 间 的 几 
条 虚线 标示 树 的 各 层 )。 该 图 所 描述 的 情况 只 是 情形 1 的 一 种 可 能 的 情况 , 在 插入 之 前 ka 满足 
AVL 性质, 但 在 插入 之 后 这 种 性 质 被 破坏 了 。 子 树 X 已 经 长 出 一 层 , 这 使 得 它 比 子 树 Z 深 出 2 
层 。Y 不 可 能 与 新 X 在 同一 水 平 上 , 因为 那样 k 在 插入 以 前 就 已 经 失去 平衡 了 ; Y 也 不 可 能 与 
Z 在 同一 层 上 , 因为 那样 就 会 是 在 通 向 根 的 路 径 上 破坏 AVL 平衡 条 件 的 第 一 个 节点 。 . 


f) Q) 


图 4-31 调整 情形 1 的 单 旋转 


为 使 树 恢复 平衡 , 我 们 把 X 上 移 一 层 , 并 把 Z 下 移 一 层 。 注 意 , 此 时 实际 上 超出 了 AVL TE 
质 的 要 求 。 为 此 , 我 们 重新 安排 节点 以 形成 一 棵 等 价 的 树 ， 如 图 4-31 的 第 二 部 分 所 示 。 抽 象 地 
形容 就 是 : 把 树 形象 地 看 成 是 柔软 灵活 的 , 抓 住 子 节点 k 闭 上 你 的 双眼 ,使劲 播 动 它 , 在 重力 
作用 下 ki 就 变 成 了 新 的 根 。 二 叉 查 找 树 的 性 质 告诉 我 们 , 在 原 树 中 ko Ri ， 于 是 在 新 树 中 k 
变 成 了 ki MAILE, X AZ 仍然 分 别 是 | 的 左 儿 子 和 k MAILS. FRY BAR PTF, 
Alek, 之 间 的 那些 节点 , 可 以 将 它 放 在 新 树 中 k 的 左 儿 子 的 位 置 上 , 这 样 , 所 有 对 顺序 的 要 求 都 
得 到 满足 。 

这 样 的 操作 只 需要 一 部 分 的 链 改 变 , 结果 我 们 得 到 另外 一 棵 二 叉 查找 树 , 它 是 一 棵 AVL BI, 
因为 X 向 上 移动 了 一 层 , Y 停 在 原来 的 水 平 上 , 而 Z FEE. kiM ki 不仅 满足 AVLER, 
而 且 它们 的 子 树 都 恰好 处 在 同一 高 度 上 。 不 仅 如 此 , 整个 树 的 新 高 度 恰恰 与 插入 前 原 树 的 高 度 
相同 , 而 插入 操作 却 使 得 子 树 X 长 高 了 。 因 此 , 通 向 根 节点 的 路 径 的 高 度 不 需要 进一步 的 修正 ， 
因而 也 不 需要 进一步 的 旋转 。 图 4-32 显示 了 在 将 6 插入 左边 原始 的 AVL 树 后 节点 8 便 不 再 平 
衡 。 于 是 , 我 们 在 7 和 8 之 间 做 一 次 单 旋 转 , 结果 得 到 右边 的 树 。 

正如 我 们 较 早 提 到 的 , 情形 4 代表 一 种 对 称 的 情形 。 图 4-33 指出 单 旋转 如 何 使 用 。 让 我 们 
演示 一 个 更 长 一 些 的 例子 。 假 设 从 初始 的 空 AVL 树 开始 插入 关键 字 3、2 和 1, 然后 依 序 插 入 4 一 
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图 4-32 揪 人 6 破坏 了 AVL 人 性 质 ， 图 4-33 单 旋 转 修 复 情形 4 


而 后 经 过 单 旋 转 又 将 性 质 恢复 


7。 在 插 人 关键 字 1 时 第 一 个 问题 出 现 了 , AVL 性 质 在 根 处 被 破坏 。 我 们 在 根 与 其 左 儿 子 之 间 施 
行 单 旋转 修正 这 个 问题 。 下 面 是 旋转 之 前 和 之 后 的 两 棵 树 : 


re f 


之 前 之 后 


图 中 虚线 连接 两 个 节点 , 它们 是 旋转 的 主体 。 下 面 我 们 插入 关键 字 为 4 的 节点 , 这 没有 问 
题 , 但 插入 5 就 破坏 了 在 节点 3 处 的 AVL 性 质 , 而 通过 单 旋 转 又 将 其 修正 。 除 旋转 引起 的 局 部 
变化 外 , 编程 人 员 必 须 记 住 : 树 的 其 余部 分 必须 被 告知 该 变化 。 如 本 例 中 节点 2 的 右 儿 子 必须 重 
新 设置 以 链接 到 4 来 代替 3。 这 一 点 很 容易 忘记 , 从 而 导致 树 被 破坏 (4 就 会 是 不 可 访问 的 )。 


ar ss 
h n O 
x S © 
之 前 6) 


之 后 


下 面 我 们 插入 6。 这 在 根 节点 产生 一 个 平衡 问题 , 因为 它 的 左 子 树 高 度 是 0 而 右 子 树 高 度 为 
2。 因 此 我 们 在 根 处 在 2 和 4 之 间 实 施 一 次 单 旋转 。 


i (4) 
Q 一 Q G 
OO a O O 
6) 
之 前 Zhi 


旋转 的 结果 使 得 2 是 4 的 一 个 儿子 , 而 4 原来 的 左 子 树 变 成 节点 2 的 新 的 右 子 树 。 在 该 子 树 上 的 
每 一 个 关键 字 均 在 2 和 4 之 间 , 因此 这 个 变换 是 成 立 的 。 我 们 插入 的 下 一 个 关键 字 是 7， 它 导致 


另外 的 旋转 : 
(3) © 
(D © d OG O9 
LAN Q 之 后 
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4.4.2 双 旋 转 
上 面 描述 的 算法 有 一 个 问题 ; 如 图 4-34 所 示 , 对 于 情形 2 和 3 上 面 的 做 法 无 效 。 问 题 在 于 子 
树 YRR, 单 旋转 没有 减低 它 的 深度 。 解 决 这 个 问题 的 双 旋 转 在 图 4-35 中 表 出 。 


(k) (ky © (ks) (ks) 
GC /从 ZEN ® QLN &) d 
AR A 一 ZA AC T pay 
B uA ue es 
图 4-34 单 旋 转 不 能 修复 情形 2 4-35 ”左右 双 旋 转 修复 情形 2 


在 图 4-34 中 的 子 树 Y 已 经 有 一 项 插入 其 中 , 这 个 事实 保证 它 是 非 空 的 。 因 此 , 我 们 可 以 假 
设 它 有 一 个 根 和 两 棵 子 树 。 于 是 , 我 们 可 以 把 整 棵 树 看 成 是 4 棵 子 树 由 3 个 节点 连结 。 如 图 所 
示 , 恰好 树 B 或 树 C 中 有 一 棵 比 DD 深 两 层 (除非 它们 都 是 空 的 ) ,但 是 我 们 不 能 肯定 是 哪 一 棵 。 


事实 上 这 并 不 要 紧 , 在 图 4-35 中 B 和 C 都 被 画 成 比 D 低 1 方 层 。 


为 了 重新 平衡 , 我 们 看 到 , 不 能 再 把 k, 用 作 根 了 , 而 图 4-34 所 示 的 在 &3 和 | 之 间 的 旋转 
又 解决 不 了 问题 , 唯一 的 选择 就 是 把 2. 用 作 新 的 根 。 这 迫使 o AULT, ks 是 它 的 右 儿 
T, 从 而 完全 确定 了 这 四 棵 树 的 最 终 位 置 。 容 易 看 出 , 最 后 得 到 的 树 满足 AVL 树 的 性 质 , 与 单 
旋转 的 情形 一 样 , 我 们 也 把 树 的 高 度 恢复 到 插入 以 前 的 水 平 , 这 就 保证 所 有 的 重新 平衡 和 高 度 更 
新 是 完善 的 。 图 4-36 指出 , 对 称 情 形 3 也 可 以 通过 双 旋转 得 以 修正 。 在 这 两 种 情形 下 ,其 效果 
与 先 在 a 的 儿子 和 孙子 之 间 旋 转 而 后 再 在 a 和 它 的 新 儿子 之 间 旋 转 的 效果 是 相同 的 。 





图 4-36 右 -- 左 双 旋 转 修复 情形 3 


我 们 继续 在 前 面 例子 的 基础 上 以 倒序 插 人 关键 字 10 一 16, 接着 插入 8, 然后 再 插 和 人 9。 插 人 
16 容易 ,因为 它 并 不 破坏 平衡 性 质 , 但 是 插入 15 就 会 引起 在 节点 7 处 的 高 度 不 平衡 。 这 属于 情 
JE 3, 需要 通过 一 次 右 一 左 双 旋 转 来 解决 。 在 我 们 的 例子 中 , 这 个 右 - 左 双 旋转 将 涉及 7、16 和 
15。 此 时 , k 是 含有 项 7 的 节点 , &3 是 含有 项 OHTA, Th 是 含有 项 15 的 节点 。 子 树 A. 
B、C 和 都 是 空 树 。 


ZI 





下 面 我 们 插入 14, 它 也 需要 一 个 双 旋 转 。 此 时 修复 该 树 的 双 旋 转 还 是 右 - 左 双 旋转 , CH 
涉及 6、15 和 7。 在 这 种 情况 下 ,Ai 是 含有 项 6 的 节点 ,&, 是 含有 项 7 的 节点 , M k 是 含有 项 15 
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的 节点 。 子 树 A 的 根 在 项 为 5 的 节点 上 , FH B 是 空子 树 , 它 是 项 7 的 节点 原先 的 左 儿 子 , TH 
CBRIR 14 的 节点 上 , 最 后 , TH D 的 根 在 项 为 16 的 节点 上 。 


ORORO 
k, 

A) 的 
MAI] (l3 


如 果 现 在 插入 13, 那么 在 根 处 就 会 产生 一 个 不 平衡 。 由 于 13 不 在 4 和 7 之 间 , 因此 我 们 知 
道 一 次 单 旋转 就 能 完成 修正 的 工作 。 


(2) — 








为 了 插入 11, 还 需要 进行 一 个 单 旋转 , 对 于 其 后 的 10 的 插入 也 需要 这 样 的 旋转 。 我 们 插入 
8 不 进行 旋转 , 这 样 就 建立 了 一 棵 近乎 理想 的 平衡 树 。 





最 后 , 我 们 插入 9 以 演示 双 旋 转 的 对 称 情 形 。 注 意 , 9 引起 含有 10 的 节点 产生 不 平衡 。 由 于 
9 在 10 和 8 之 间 (8 在 10 通 向 9 的 路 径 上 是 节点 10 的 儿子 ), 因此 需要 进行 一 个 双 旋 转 , 我 们 得 


”到 下 面 的 树 : 
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现在 计 我 们 对 上 面 的 讨论 做 个 总 结 。 除 几 种 情形 外 , 编程 的 细节 是 相当 简单 的 。 为 将 项 是 
X 的 一 个 新 节点 插入 到 一 棵 AVL BE T 中 去 , 我 们 递归 地 将 X MART 的 相应 的 子 树 ( 称 为 
Tu) B. WE Tig 的 高 度 不 变 , 那么 插入 完成 。 否 则 ,如果 在 T 中 出 现 高 度 不 平衡 , 则 根据 X 
以 及 荆 和 Tg 中 的 项 做 适当 的 单 旋转 或 双 旋 转 , 更 新 这 些 高 度 (并 解决 好 与 树 的 其 余部 分 的 链 
HO, 从 而 完成 插入 。 由 于 一 次 旋转 总 能 足以 解决 问题 , 因此 仔细 地 编写 非 递归 的 程序 一 般 说 来 
要 比 编写 递归 程序 快 得 多 。 然 而 , 要 想 把 非 递归 程序 编写 正确 是 相当 困难 的 , 因此 许多 编程 人 员 
还 是 用 递归 的 方法 实现 AVL 树 。 

另 一 个 效率 问题 涉及 到 高 度 信息 的 存储 。 由 于 真正 需要 的 实际 上 就 是 子 树 高 度 的 差 ,应 该 
保证 它 很 小 。 如 果 我 们 真 的 尝试 这 种 方法 , 可 用 两 个 二 进 制 位 (代表 + 1、0、- 1) 表 示 这 个 差 。 
这 样 将 避免 平衡 因子 的 重复 计算 , 但 是 却 丧 失 某 些 简明 性 。 最 后 的 程序 多 多 少 少 要 比 在 每 一 个 
节点 存储 高 度 复杂 。 如 果 编 写 递归 程序 , 那么 速度 铠 怕 不 是 主要 考虑 的 问题 。 此 时 , 通过 存储 平 
衡 因子 所 得 到 的 些微 速度 优势 很 难 抵消 清晰 和 相对 简明 性 的 损失 。 不 仅 如 此 , 由 于 大 部 分 机 器 
存储 的 最 小 单位 是 8 个 二 进 制 位 , 因此 所 用 的 空间 量 不 可 能 有 任何 差别 。 一 个 8 位 的 字 节 使 我 们 
存储 高 达 127 的 绝对 高 度 。 既 然 树 是 平衡 的 , 因此 空间 是 足够 的 ( 见 练习 )。 

有 了 上 面 的 讨论 , 现在 准备 编写 AVL 树 的 一 些 例 程 。 不 过 , 这 里 我 们 只 想 做 一 部 分 工作 ， 
其 余 的 联机 提供 。 首 先 , 我 们 需要 avlNode 类 , 它 在 图 4-37 中 给 出 。 我 们 还 需要 一 个 快速 的 方法 
来 返回 节点 的 高 度 , 这 个 方法 必须 处 理 null 引用 的 麻烦 情形 。 该 程序 在 图 4-38 中 给 出 。 基 本 的 
插入 例 程 写 起 来 很 容易 , 因为 它 主要 由 一 些 方法 调用 组 成 ( 见 图 4-39)。 













| ] private static class Av}Node<AnyType> 
- ( 
3 // Constructors 
| 4 AvlNode( AnyType theElement ) 
5 ( this( theElement, null, null ); } 
6 
D. 7 AvlNode( AnyType theElement, AvlNodecAnyType» 1t, AvINode«AnyType» rt ) 
8 ( element - theElement; left = lt; right = rt; height = 0; } 
9 
10 AnyType element; // The data in the node 
11 AvlNodecAnyType» left; // Left child 
12 AvlNodecAnyType» right; // child 
13 int height; // Height 


图 4-37 AVL 树 的 节点 声明 


Download at http://www.pinSi.com/ 


99 


= 








— — — — — — — — 


** 

* Return the height of node t, or -1, if null. 
"n 

private int height( AviNode<AnyType> t ) 

( 


! 


-— ——— 一 一 一 一 一 一 


图 4-38 计算 AVL 节点 的 高 度 的 方法 


return t == null ? -1 : t.height; 


—— 
OON La 4 C ho — 




















l J=* = | | 
2 * Internal method to insert into a subtree. | 
3 * @param x the item to insert. 
4 * @param t the node that roots the subtree. 
5 * @return the new root of the subtree. 
6 */ 
7 private AvlNode«AnyType» insert( AnyType x, AvlNode«AnyType» t ) 
8 { 
9 if( t == null ) 
10 return new Av]Node<AnyType>( x, null, null ); 
11 
12 int compareResult = compare( x, t.element ); 
13 
14 if( compareResult < 0 ) 
15 | 
16 t.left = insert( x, t.left ); 
17 if( height( t.left ) - height( t.right ) == 2 ) 
18 if( compare( x, t.left.element ) < 0) 
19 t = rotateWithLeftChild( t ); 
20 else 
21 t = doubleWithLeftChild( t ); 
22 ) 
23 else if( compareResult » 0 ) 
24 { 
25 t.right = insert( x, t.right ); 
26 if( height( t.right ) - height( t.left ) == 2) 
27 if( compare( x, t.right.element ) » 0 ) 
28 t » rotateWithRightChild( t ); 
29 else 
30 t - doubleWithRightChild( t ); 
| 31 ) 
32 else 
33 ; // Duplicate; do nothing 
| 34 t.height = Math.max( height( t.left ), height( t.right )) + 1; 
35 return t; 
36 ) 





— — — — — — — — 


4-39 [I AVL MAME 





对 于 图 4-40 中 的 那些 树 , 方法 rotateWithLeftChild 把 左边 的 树 变 成 右边 的 树 , 并 返回 对 新 
根 的 引用 。 方 法 routateWithRightChild 是 对 称 的 。 程 序 在 图 4-41 中 表 出 。 
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(ka) 
AKAA KD 


E 4-40 Bese 









** 
* Rotate binary tree node with left child. 

* For AVL trees, this is a single rotation for case 1. 

* Update heights, then return new root. 

af J 
private Av]Node<AnyType> rotateWithLeftChild( AvlNodecAnyType» k2 ) 
{ 
AviNode«AnyType» kl = k2.left; 


On OV ta iD 一 







9 k2.left = kl.right; 

10 kl.right = k2; 

11 k2.height = Math.max( height( k2.left ), height( k2.right )) + 1; 
12 kl.height = Math.max( height( kl.left ), k2.height ) + 1; 

13 return kl; 

14 } 








图 4-41 执行 单 旋转 的 例 程 
我 们 要 编写 的 最 后 一 J 其 程序 由 图 4-43 表 出 。 





个 人 入 LON 


图 4-42” 双 旋转 

l F iin 

2 * Double rotate binary tree node: first left child 

3 * with its right child; then node k3 with new left child. 
4 * For AVL trees, this is a double rotation for case 2. 

5 * Update heights, then return new root. 

6 * 

7 private Av1Node<AnyType> doubleWithLeftChild( Av1Node<AnyType> k3) 
8 { 

9 k3.Jeft = rotateWithRightChild( k3.left ); 
10 return rotateWithLeftChild( k3 ); 

ll ) 








图 4-43 ”执行 双 旋 转 的 例 程 


对 AVL 树 的 删除 多 少 要 比 插入 复杂 , 我 们 把 它 留 作 练习 。 如 果 删 除 操作 相对 较 少 , RAM 
Ps Be eH LE HOI SR 


4.5 ”伸展 树 
现在 我 们 描述 一 种 相对 简单 的 数据 结构 ,叫做 伸展 树 (splay tree), 它 保证 从 空 树 开始 连续 M 
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次 对 树 的 操作 最 多 花费 O(M log N) 时 间 。 虽 然 这 种 保证 并 不 排除 任意 单 次 操作 花费 O(N) 时 
间 的 可 能 , 而 且 这 样 的 界 也 不 如 每 次 操作 最 坏 情 形 的 界 为 O(log N) 时 那么 强 , 但 是 实际 效果 却 
是 一 样 的 : 不 存在 坏 的 输入 序列 。 一 般 说 来 , 当 M 次 操作 的 序列 总 的 最 坏 情形 运行 时 间 为 
O(MF(N)) 时 , 我 们 就 说 它 的 捧 还 (amortized) 运 行 时 间 为 O(f(N))。 因 此 , 一 棵 伸展 树 每 次 操 
作 的 摊 还 代价 是 O(log N)。 经 过 一 系列 的 操作 ,有 的 操作 可 能 花费 时 间 多 一 些 , 有 的 可 能 要 少 
一 些 。 

伸展 树 基于 这 样 的 事实 : 对 于 二 叉 查找 树 来 说 , 每 次 操作 最 坏 情形 时 间 O(N ) 并 不 坏 ， 只 要 
它 相对 不 常 发 生 就 行 。 任 何 一 次 访问 , 即使 花费 O(N), 仍然 可 能 非常 快 。 二 又 查找 树 的 问题 在 
F, 虽然 一 系列 访问 整体 都 是 坏 的 操作 有 可 能 发 生 , 但 是 很 罕见 。 此 时 ， 累 积 的 运行 时 间 很 重 
要 。 具 有 最 坏 情 形 运行 时 间 O(N) 但 保证 对 任意 M 次 连续 操作 最 多 花费 DO(M log N) 运 行 时 间 
的 查找 树 数 据 结构 确实 可 以 令 人 满意 了 ,因为 不 存在 坏 的 操作 序列 。 

如 果 任 意 特定 操作 可 以 有 最 坏 时 间 界 OCNO , 而 我 们 仍然 要 求 一 个 O(log 六 ) 的 摊 还 时 间 界 ， 
那么 很 清楚 ,只 要 一 个 节点 被 访问 , 它 就 必须 被 移动 。 否 则 , 一 旦 发 现 一 个 深层 的 节点 , 我 们 就 
有 可 能 不 断 对 它 进行 访问 。 如 果 这 个 节点 不 改变 位 置 , 而 每 次 访问 又 花费 O(N), 那么 M 次 访 
问 将 花费 OC M * N) BT [B] 

伸展 树 的 基本 想法 是 ， 当 一 个 节点 被 访问 后 , 它 就 要 经 过 一 系列 AVL 树 的 旋转 被 推 到 根 上 。 
注意 , 如 果 一 个 节点 很 深 , 那么 在 其 路 径 上 就 存在 许多 也 相对 较 深 的 节点 , 通过 重新 构造 可 以 减 
少 对 所 有 这 些 节点 的 进一步 访问 所 花费 的 时 间 。 因 此 , 如 果 节 点 过 深 , 那么 我 们 要 求 重 新 构造 应 
具有 平衡 这 棵 树 ( 到 某 种 程度 ) 的 作用 。 除 在 理论 上 给 出 好 的 时 间 界 外 , 这 种 方法 还 可 能 有 实际 
的 效用 , 因为 在 许多 应 用 中 当 一 个 节点 被 访问 时 , 它 很 可 能 不 久 再 被 访问 。 研 究 表明 , 这 种 情况 
的 发 生 比 人 们 预想 的 要 频繁 得 多 。 另 外 , 伸展 树 还 不 要 求 保留 高 度 或 平衡 信息 , 因此 它 在 某 种 程 
度 上 节省 空间 并 简化 代码 (特别 是 当 实现 例 程 经 过 审慎 考虑 而 被 写 出 的 时 候 )。 

4.5.1 一 个 简单 的 想法 (不 能 直接 使 用 ) 

实施 上 面 描述 的 重新 构造 的 一 种 方法 是 执行 单 旋转 ,从 底 向 上 进行 。 这 意味 着 我 们 将 在 访 
问 路 径 上 的 每 一 个 节点 和 它们 的 父 节 点 实施 旋转 。 作 为 例子 , 考虑 在 下 面 的 树 中 对 k 进行 一 次 
访问 (一 次 find) 之 后 所 发 生 的 情况 。 


- 
- 
e” 
- 


虚线 是 访问 的 路 径 。 首 先 , RINE k 和 它 的 父 节 点 之 间 实 施 一 次 单 旋转 , 得 到 下 面 的 树 
| 


wm 
/AN, LY 


然后 ， 我 们 在 kı 和 k3 之 间 旋 转 ， 得 到 下 一 棵 树 。 
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此 后 , 再 实行 两 次 旋转 直到 ki 到 达 树 根 。 





这 些 旋 转 的 效果 是 将 | 一 直 推 向 树 根 , 使 得 对 A 的 进一步 访问 很 容易 (暂时 的 )。 不 足 的 是 
它 把 另外 一 个 节点 (&s) 几 乎 推 向 和 ki 以 前 那么 深 。 而 对 那个 节点 的 访问 又 将 把 另外 的 节点 向 深 
处 推进 , 如 此 等 等 。 虽 然 这 个 策略 使 得 对 &, 的 访问 花费 时 间 减 少 , 但 是 它 并 没有 明显 改善 ( 原 
先 ) 访 问 路 径 上 其 他 节点 的 状况 。 事 实 上 可 以 证 明 , 使 用 这 种 策略 将 会 存在 一 系列 M 个 操作 共 
需要 Q( M:NN) 的 时 间 , 因此 这 个 想法 还 不 够 好 。 说 明 这 个 问题 最 简单 的 方法 是 考虑 向 初始 的 空 
树 插入 关键 字 1,2,3,…, N 所 形成 的 树 (请 将 这 个 例子 算出 )。 由 此 得 到 一 棵 树 , RRB HL S — 
些 左 儿 子 构成 。 由 于 建立 这 棵 树 总 共 花费 时 间 为 O(N), 因此 这 未 必 就 有 多 坏 。 问 题 在 于 访问 
关键 字 为 1 的 节点 花费 N - 1 个 单元 的 时 间 。 在 一 些 旋转 完成 以 后 , 对 关键 字 为 2 的 节点 的 一 次 
访问 花费 N - 2 个 单元 的 时 间 。 依 序 访问 所 有 关键 字 的 总 时 间 是 0757 i = Q(N2)。 在 它们 都 被 
访问 以 后 , 该 树 转变 回 原始 状态 , 而 且 我 们 可 能 重复 这 个 访问 顺序 。 
4.5.2 展开 

展开 (splaying) 的 思路 类 似 于 上 面 介绍 的 旋转 的 想法 , 不 过 在 旋转 如 何 实施 上 我 们 稍微 有 些 
选择 的 余地 。 我 们 仍然 从 底部 向 上 沿 着 访问 路 径 旋转 。 令 X 是 在 访问 路 径 上 的 一 个 ( 非 根 ) 节 
点 , 我 们 将 在 这 个 路 径 上 实施 旋转 操作 。 如 果 X 的 父 节点 是 树 根 , 那么 只 要 旋转 X 和 树 根 。 这 
就 是 沿 着 访问 路 径 上 的 最 后 的 旋转 。 否 则 ，X 就 有 父亲 (P) 和 祖父 (G), 存在 两 种 情况 以 及 对 称 
的 情形 要 考虑 。 第 一 种 情况 是 之 字形 (zig-zag) 情 形 ( 见 图 4-44)。 这 里 ，X 是 右 儿 子 的 形式 , P È 
左 儿 子 的 形式 (反之 亦 然 )。 如 果 是 这 种 情况 , 那么 我 们 执行 一 次 就 像 AVL 双 旋 转 那样 的 双 旋 
转 。 否 则 , 出 现 另 一 种 一 字形 (zig-zig) 情 形 : X 和 P 或 者 都 是 左 儿子 , 或 者 其 对 称 的 情形 , X IP 
都 是 右 儿子 。 在 这 种 情况 下 , 我 们 把 图 4-45 左边 的 树 变换 成 右边 的 树 。 
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图 4-44 ”之 字形 (zig-zag) 情 形 图 4-45 一 字形 (zig-zig) 情 形 
作为 例子 , 考虑 来 自 最 后 的 例子 中 的 树 ， 对 | 执行 一 次 contains: 


-- fk) 
A. NS B 





展开 的 第 一 步 是 在 1, 显然 是 一 个 之 字形 , 因此 我 们 用 kis ki 和 ks 执行 一 次 标准 的 AVL DUE 
转 。 得 到 如 下 的 树 。 





虽然 从 一 些小 例子 很 难看 出 来 , 但 是 展开 操作 不 仅 将 访问 的 节点 移动 到 根 处 , 而 且 还 把 访问 路 径 
上 的 大 部 分 节点 的 深度 大 致 减少 一 半 ( 某 些 浅 的 节点 最 多 向 下 推 后 两 层 )。 

为 了 看 出 展开 与 简单 旋转 的 差别 , 再 来 考虑 将 1,2,3,…,N 各 项 插 人 到 初始 空 树 中 去 的 效 
果 。 如 前 所 述 可 知 共 花 费 O(N) 时 间 , 并 产生 与 一 些 简单 旋转 结果 相同 的 树 。 图 4-46 指出 在 项 
为 1 的 节点 展开 的 结果 。 区 别 在 于 , 在 对 项 为 1 的 节点 访问 (花费 N -1 个 单元 的 时 间 ) 之 后 , 对 
项 为 2 的 节点 的 访问 只 花费 N/2 个 时 间 单 元 而 不 是 N 2 个 时 间 单 元 ; 不 存在 像 以 前 那么 深层 
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图 4-46 在 节点 1 展开 的 结果 
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对 项 为 2 的 节点 的 访问 将 把 各 个 节点 带 到 距 根 NA 的 深度 之 内 ,并且 如 此 进行 下 去 直到 深 
度 大 约 为 log N(N=7 的 例子 太 小 , 不 能 很 好 地 看 清 这 种 效果 )。 图 4-47 一 图 4-55 显示 在 32 个 节 





G) 
© 28) 
m : E 
© 四 D 
O (D ey WAL 
O (3 i Mae 
o i0 (G3 (3 GO 
GS 6 G (9 


图 4-49 将 前 面 的 树 在 节点 3 处 展开 
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图 4-50 将 前 面 的 树 在 节点 4 处 展开 





图 4-54 将 前 面 的 树 在 节点 8 处 展开 
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图 4-55 将 前 面 的 树 在 节点 9 处 展开 


点 的 树 中 访问 项 1— 9 的 结果 , 这 棵 树 最 初 只 含有 左 儿 子 。 我 们 从 伸展 树 得 不 到 在 简单 旋转 策略 
中 常见 的 那 种 低 效率 的 坏 现象 (实际 上 , 这 个 例子 只 是 一 种 非常 好 的 情况 。 有 一 个 相当 复杂 的 证 
明 指 出 , 对 于 这 个 例子 , N 次 访问 共 耗 费 O(N) 的 时 间 )。 

这 些 图 着 重 强调 了 伸展 树 基 本 的 和 关键 的 性 质 。 当 访问 路 径 长 而 导致 超出 正常 查找 时 间 的 
时 候 , 这 些 旋转 将 对 未 来 的 操作 有 益 。 当 访问 耗 时 很 少 的 时 候 , 这 些 旋 转 则 不 那么 有 益 甚 至 有 
害 。 极 端的 情形 是 经 过 若干 插入 而 形成 的 初始 树 。 所 有 的 插入 都 是 导致 坏 的 初始 树 的 花费 常数 
时 间 的 操作 。 此 时 , 我 们 会 得 到 一 棵 很 差 的 树 , 但 是 运行 却 比 预计 的 快 ,从 而 总 的 较 少 运行 时 间 
补偿 了 损失 。 这 样 , 少数 真正 麻烦 的 访问 却 留 给 我 们 一 棵 几乎 是 平衡 的 树 , 其 代价 是 必须 返还 某 
些 已 经 省 下 的 时 间 。 在 第 11 章 我 们 将 证 明 的 主要 定理 指出 , 平均 每 个 操作 决 不 会 落后 O(log N) 
这 个 时 间 : 我 们 总 是 遵守 这 个 时 间 , 即使 偶尔 有 些 坏 的 操作 。 

可 以 通过 访问 要 被 删除 的 节点 来 执行 删除 操作 。 这 种 操作 将 节点 上 推 到 根 处 。 如 果 删 除 该 
节点 , 则 得 到 两 棵 子 树 T, 和 Tk( 左 子 树 和 右 子 树 )。 如 果 我 们 找到 T, 中 的 最 大 的 元 素 ( 这 很 容 
易 ), 那么 这 个 元 素 就 被 旋转 到 T, HRT, 而 此 时 T, 将 有 一 个 没有 右 儿子 的 根 。 我 们 可 以 使 
Tg 为 右 儿 子 从 而 完成 删除 。 

对 伸展 树 的 分 析 很 困难 , 因为 必须 要 考虑 树 的 经 常 变化 的 结构 。 另 一 方面 , 伸展 树 的 编程 要 
E AVL 树 简 单 得 多 , 这 是 因为 要 考虑 的 情形 少 并 且 不 需要 保留 平衡 信息 。 一 些 实际 经 验 指出 ， 
在 实践 中 它 可 以 转化 成 更 快 的 程序 代码 , 不 过 这 种 状况 离 完善 还 很 远 。 最 后 , 我 们 指出 , 伸展 树 
有 几 种 变化 , 它们 在 实践 中 甚至 运行 得 更 好 。 有 一 种 变化 在 第 12 章 中 已 被 完全 编 成 程序 。 


4.6 树 的 遍历 


由 于 二 叉 查 找 树 中 对 信息 进行 的 排序 ,因而 按照 排序 的 顺序 列 出 所 有 的 项 很 简单 , 图 4-56 
中 的 递归 方法 进行 的 就 是 这 项 工作 。 
毫 无 疑问 ， 该 方法 能 够 解决 将 项 排序 列 出 的 问题 。 正 如 我 们 前 面 看 到 的 , 这 类 例 程 当 用 于 树 
的 时 候 则 称 为 中 序 遍 历 ( 由 于 它 依 序列 出 了 各 项 , 因此 是 有 意义 的 )。 一 个 中 序 遍 历 的 一 般 方 法 
是 首先 处 理 左 子 树 , 然后 是 当前 的 节点 , 最 后 处 理 右 子 树 。 这 个 算法 的 有 趣 部 分 除 它 简单 的 特性 
Sh, 还 在 于 其 总 的 运行 时 间 是 O(N)。 这 是 因为 在 树 的 每 一 个 节点 处 进行 的 工作 是 常数 时 间 的 。 
每 一 个 节点 访问 一 次 , 而 在 每 一 个 节点 进行 的 工作 是 检测 是 否 nul1、 建 立 两 个 方法 调用 、 并 执行 
println。 由 于 在 每 个 节点 的 工作 花费 常数 时 间 以 及 总 共有 N 个 节点 , 因此 运行 时 间 为 O(N). 
有 时 我 们 需要 先 处 理 两 棵 子 树 然后 才能 处 理 当 前 节点 。 例 如 ,为 了 计算 一 个 节点 的 高 度 , 首 
先 需 要 知道 它 的 子 树 的 高 度 。 图 4-57 中 的 程序 就 是 计算 高 度 的 。 由 于 检查 一 些 特殊 的 情况 总 是 
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有 益 的 一 一 当 涉 及 递归 时 尤其 重要 , 因此 要 注意 这 个 例 程 声明 树叶 的 高 度 为 零 , 这 是 正确 的 。 这 
种 一 般 的 遍历 顺序 叫做 后 序 人 遍历, 我 们 在 前 面 也 见 到 过 。 因 为 在 每 个 节点 的 工作 花费 常数 时 间 ， 
所 以 总 的 运行 时 间 也 是 O(N)。 





























] * * 
2 * Print the tree contents in sorted order. | 
3 * 
4 public void printTree( ) 
5 { | 
6 if( isEmpty( ) ) 
7 System.out.println( "Empty tree" ); 
8 else 
9 printTree( root ); 
10 ] 
11 
12 /** 
13 * Internal method to print a subtree in sorted order. 
14 * (param t the node that roots the subtree. 
15 */ 
| 16 private void printTree( BinaryNode<AnyType> t ) 
) 17 { 
18 if( t != null ) 
19 { 
20 printTree( t.left ); 
| 21 System.out.printin( t.element ); 
| 22 printTree( t.right ); 
| 23 } 
24 } 
图 4-56” 按 顺序 打印 二 叉 查 找 树 的 例 程 
H kk rant Pc ut i m m 
2 * Interna! method to compute height of a subtree. 
3 * @param t the node that roots the subtree. 
4 */ 
5 private int height( BinaryNode<AnyType> t ) 
6 { 
7 if( t == null ) 
8 return -1; 
9 else 
d return 1 + Math.max( height( t.left ), height( t.right )); 





E 4-57 ”使 用 后 序 遍 历 计算 树 的 高 度 的 例 程 


我 们 见 过 的 第 三 种 常用 的 遍历 格式 为 先 序 遍历 (preorder traversal), XH, 当前 节点 在 其 儿子 
节点 之 前 处 理 。 这 种 遍历 是 有 用 的 。 比 如 ,如 果 要 想 用 其 深度 标记 每 一 个 节点 , 那么 这 种 遍历 就 
会 用 到 。 

所 有 这 些 例 程 有 一 个 共同 的 想法 , 即 首 先 处 理 null 的 情形 , 然后 才 是 其 余 的 工作 。 注 意 , 此 
处 缺少 一 些 附加 的 变量 。 这 些 例 程 仅仅 传递 对 作为 子 树 的 根 的 节点 的 引用 , 并 没有 声明 或 是 传 
递 任何 附加 的 变量 。 程 序 越 紧凑 ,一 些 愚 春 的 错误 出 现 的 可 能 就 越 少 。 第 四 种 遍历 用 得 很 少 , 叫 
做 层 序 遍历 (level order traversal), 我 们 以 前 尚未 见 到 过 。 在 层 序 遍 历 中 , 所 有 深度 为 d 的 节点 要 
在 深度 d+ 1 的 节点 之 前 进行 处 理 。 层 序 遍 历 与 其 他 类 型 的 遍历 不 同 的 地 方 在 于 它 不 是 递归 地 执 
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4189; 它 用 到 队列 ， 而 不 使 用 递归 所 默 示 的 栈 。 
4.7 Be 


迄今 为 止 , 我 们 始终 假设 可 以 把 整个 数据 结构 存储 到 计算 机 的 主 存 中 。 可 是 ,如 果 数 据 更 多 
装 不 下 主 存 , 那么 这 就 意味 着 必须 把 数据 结构 放 到 磁盘 上 。 此 时 , 因为 大 O 模型 不 再 适用 , 所 以 
导致 游戏 规则 发 生 了 变化 。 

问题 在 于 , 大 O 〇 分 析 假 设 所 有 的 操作 耗 时 都 是 相等 的 。 然 而 , 现在 这 种 假设 就 不 合适 了 , 特 
别 是 涉及 磁盘 1/O 的 时 候 。 例 如 , 一 台 500 - MIPS 的 机 器 可 能 每 秒 执行 5 亿 条 指令 。 这 是 相当 
快 的 ,主要 是 因为 速度 主要 依赖 于 电 的 特性 。 另 一 方面 , 磁盘 操作 是 机 械 运动 , 它 的 速度 主要 依 
赖 于 转动 磁盘 和 移动 磁头 的 时 间 。 许 多 磁盘 以 7200RPM 旋转 。 即 1 分 钟 转 7200 $; 因此 ，! 转 
占用 1/120 秒 , 或 即 8.3 毫秒 。 平 均 可 以 认为 磁盘 转 到 一 半 的 时 候 发 现 我 们 要 寻找 的 信息 , 但 这 
又 被 移动 磁盘 磁头 的 时 间 抵 消 , 因此 我 们 得 到 访问 时 间 为 8.3 毫秒 (这 是 非常 宽松 的 估计 ; 9 一 11 
毫秒 的 访问 时 间 更 为 普通 )。 因 此 , 每 秒 大 约 可 以 进行 120 次 磁盘 访问 。 若 不 和 处 理 器 的 速度 比 
B, 那么 这 听 起 来 还 是 相当 不 错 的 。 可 是 考虑 到 处 理 器 的 速度 ,5 亿 条 指令 却 花费 相当 于 120 次 
磁盘 访问 的 时 间 。 换 句 话 说 , 一 次 磁盘 访问 的 价值 大 约 是 40 万 条 指令 。 当 然 , 这 里 每 一 个 数据 
都 是 粗略 的 计算 , 不 过 相对 速度 还 是 相当 清楚 的 : 磁盘 访问 的 代价 太 高 了 。 不 仅 如 此 , 处 理 器 的 
速度 还 在 以 比 磁盘 速度 快 得 多 的 速度 增长 (增长 相当 快 的 是 磁盘 容量 的 大 小 )。 因 此 , 为 了 节省 
一 次 磁盘 访问 , 我 们 愿意 进行 大 量 的 计算 。 几 乎 在 所 有 的 情况 下 , 控制 运行 时 间 的 都 是 磁盘 访问 
的 次 数 。 于 是 ,如 果 把 磁盘 访问 次 数 减少 一 半 ，, 那么 运行 时 间 也 将 减 半 。 

在 磁盘 上 ,典型 的 查找 树 执行 如 下 : 设想 要 访问 佛罗里达 州 公 民 的 驾驶 记录 。 假 设 有 1 千 万 
项 , 每 一 个 关键 字 是 32 字 节 (代表 一 个 名 字 )， 而 一 个 记录 是 256 个 字 节 。 假 设 这 些 数 据 不 能 都 
装 入 主 存 , 而 我 们 是 正在 使 用 系统 的 20 个 用 户 中 的 一 个 (因此 有 1720 的 资源 )。 这 样 , TE 1# 
A, 我 们 可 以 执行 2 千 5 BAKES, 或 者 执行 6 次 磁盘 访问 。 

不 平衡 的 二 又 查 找 树 是 一 个 灾难 。 在 最 坏 情 形 下 它 具 有 线性 的 深度 ,从 而 可 能 需要 1 千 万 
次 磁盘 访问 。 平 均 来 看 , 一 次 成 功 的 查找 可 能 需要 1.38 log N 次 磁盘 访问 , 由 于 log 10 000 000 
24, 因此 平均 一 次 查找 需要 32 次 磁盘 访问 , 或 5 秒 的 时 间 。 在 一 棵 典型 的 随机 构造 的 树 中 , 我 们 
预料 会 有 一 些 节点 的 深度 要 深 3 倍 ; 它们 需要 大 约 100 次 磁盘 访问 , 或 16 秒 的 时 间 。AVL 树 多 
少 要 好 一 些 。1 .44 log N 的 最 坏 情 形 不 可 能 发 生 , 典型 的 情形 是 非常 接近 于 log N。 这 样 , 一 村 
AVL 树 平均 将 使 用 大 约 25 次 磁盘 访问 , 需要 的 时 间 是 4 秒 。 

我 们 想 要 把 磁盘 访问 次 数 减 小 到 一 个 非常 小 的 常数 , 比如 3 或 4; 而 且 我 们 愿意 号 一 个 复杂 
的 程序 来 做 这 件 事 ,， 因 为 在 合理 情况 下 机 器 指令 基本 上 是 不 占 时 间 的 。 由 于 典型 的 AVL 树 接近 
到 最 优 的 高 度 , 因此 应 该 清楚 的 是 , 二 叉 查找 树 是 不 可 行 的 。 使 用 二 叉 查 找 树 我 们 不 能 行进 到 低 
T log N。 解 法 直觉 上 看 是 简单 的 : 如 果 有 更 多 的 分 支 , 那么 就 有 更 少 的 高 度 。 这 样 ，31 个 节点 
的 理想 二 叉 树 (perfect binary tree) 有 5 层 , 而 31 个 节点 的 5 叉 树 则 只 有 3 层 , 如 图 4-58 所 示 。 一 
BR M 叉 查找 树 (M-ary search tree) TWA M 路 分 支 。 随 着 分 支 增加 , 树 的 深度 在 减少 。 一 村 完全 
ZH} (complete binary tree) 的 高 度 大约 为 log N, 而 一 棵 完全 M LH (complete M-ary tree) 的 高 
度 大 约 是 logm No 

我 们 可 以 以 与 建立 二 叉 查 找 树 大 致 相同 的 方式 建立 M 叉 查找 树 。 在 二 叉 查 找 树 中 , 需要 一 个 
关键 字 来 决定 两 个 分 支 到 底 取 用 哪个 分 支 ; 而 在 M 叉 查 找 树 中 需要 M 个 关键 字 来 决定 选取 哪个 
分 支 。 为 使 这 种 方案 在 最 坏 的 情形 下 有 效 , 需要 保证 M 叉 查找 树 以 某 种 方式 得 到 平衡 。 否 则 , 像 
二 叉 查 找 树 , 它 可 能 退化 成 一 个 链表 。 实 际 上 , 我 们 甚至 想 要 更 加 限制 性 的 平衡 条 件 , 即 不 想 要 
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M 义 查 找 树 退 化 到 甚至 是 二 又 查找 树 , 因为 那 时 我 们 又 将 无 法 摆脱 log N 次 访问 了 。 
e 


CJOOCQ)ODODOOUOQCIOUOOOQOUOUCGCIOQ(OOU 
图 4-58 31 个 节点 的 5 叉 树 只 有 3 层 


实现 这 种 想法 的 一 种 方法 是 使 用 B 树 。 这 里 描述 基本 的 B 树 2?。 许 多 的 变种 和 改进 都 是 可 
能 的 , 但 实现 起 来 多 少 要 复杂 些 , 因为 有 相当 多 的 情形 需要 考虑 。 不 过 , 容易 看 到 , 原则 上 B 树 
保证 只 有 少数 的 磁盘 访问 。 

阶 为 M 的 B 树 是 一 棵 具有 下 列 特性 的 树 ” : 

1. 数据 项 存储 在 树叶 上 。 

2. 非 叶 节 点 存储 直到 M - !1 个 关键 字 以 指示 搜索 的 方向 ; KEF i 代表 子 树 ; + 1 中 的 最 小 
的 关键 字 。 

3. 树 的 根 或 者 是 一 片 树叶 , 或 者 其 儿子 数 在 2 和 M 之 间 。 

4. 除根 外 , 所 有 非 树叶 节点 的 儿子 数 在 [ M7 2 1 和 M 之 间 。 

5. 所 有 的 树叶 都 在 相同 的 深度 上 并 有 [LL/21 和 工 之 间 个 数据 项 ,L 的 确定 稍 后 描述 。 

图 4-59 显示 5 Br B 树 的 一 个 例子 。 注 意 , 所 有 的 非 叶 节点 的 儿子 数 都 在 3 和 5 之 间 ( 从 而 有 
2 到 4 个 关键 字 ); 根 可 能 只 有 两 个 儿子 。 这 里 , RIE L = 5( 在 这 个 例子 中 LL 和 M 恰好 是 相同 
的 , 但 这 不 是 必须 的 )。 由 于 LÆS, 因此 每 片 树叶 有 3 到 5 个 数据 项 。 要 求 节点 半 满 将 保证 B 
树 不 致 退化 成 简单 的 二 叉 树 。 虽 然 存 在 改变 该 结构 的 各 种 B 树 的 定义 , 但 大 部 分 在 一 些 次 要 的 
细节 上 变化 , 而 我 们 这 个 定义 是 流行 的 形式 之 一 。 


MEUM 
Lejsyosyssy Yas sissy U greise j| PMII 


| |201 38. zellas 49 [S2 [e| — les] 25179) |a THER 
MEE ili RR wile 
8||46 59 70||76 
A459 5 阶 B 树 


每 个 节点 代表 一 个 磁盘 区 块 , 于 是 我 们 根据 所 存储 的 项 的 大 小 选择 MAL. Blin, 设 一 个 
区 块 能 容纳 8192 字 节 。 在 上 面 的 佛罗里达 例子 中 , 每 个 关键 字 使 用 32 个 字 节 。 在 一 棵 M Br 
B 树 中 , 有 M -1 个 关键 字 , 总 数 为 32M 一 32 字 节 , 再 加 上 M 个 分 支 。 由 于 每 个 分 支 基本 上 都 
是 另外 的 一 些 磁 盘 区 块 , 因此 可 以 假设 一 个 分 支 是 4 个 字 节 。 这 样 , 这 些 分 支 共 用 AM 个 字 节 。 
一 个 非 叶 节点 总 的 内 存 需 求 为 36M - 32 个 字 节 。 使 得 不 超过 8192 字 节 的 M 的 最 大 值 是 228。 
因此 , 我 们 选择 M =228。 由 于 每 个 数据 记录 是 256 字 节 , 因此 可 以 把 32 个 记录 装 人 一 个 区 块 
中 。 于 是 , 我 们 选择 L = 32。 这 样 就 保证 每 片 树叶 有 16 到 32 个 数据 记录 以 及 每 个 内 部 节点 ( 除 
根 外 ) 至 少 以 114 种 方式 分 叉 。 由 于 有 1 千 万 个 记录 , 因此 至 多 存在 625000 片 树叶 。 由 此 得 知 ， 
在 最 坏 情形 下 树叶 将 在 第 4 层 上 。 更 具体 地 说 , 最 坏 情 形 的 访问 次 数 近 似 地 由 logw2 N 给 出 , 这 


O 这 里 所 撒 述 的 是 通常 称 为 B* 树 的 树 。 
O 法 则 3 和 5 对 于 前 上 L 次 插入 必须 要 放宽 。 
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个 数 可 以 有 1 的 误差 (例如 , 根 和 下 一 层 可 以 存放 在 主 存 中 , 使 得 经 过 长 时 间 运 行 后 磁盘 访问 将 ， 
只 对 第 3 层 或 更 深层 是 需要 的 )。 

剩 下 的 问题 是 如 何 向 B 树 添加 项 和 从 B 树 删除 项 ; 下 面 将 概述 所 涉及 的 想法 。 注 意 , 许多 论 
题 以 前 见 到 过 。 

我 们 首先 考查 插入 。 设 想 要 把 57 插入 到 图 4-59 的 B 树 中 。 沿 树 向 下 查找 揭示 出 它 不 在 树 中 。 
此 时 我 们 把 它 作为 第 5 项 添加 到 树叶 中 。 注 意 我 们 可 能 要 为 此 重新 组 织 该 树叶 上 的 所 有 数据 。 然 
mj, 与 磁盘 访问 相 比 (在 这 种 情况 下 它 还 包含 一 次 磁盘 写 ), 这 项 操作 的 开销 可 以 忽略 不 计 。 

当然 , 这 是 相对 简单 的 , 因为 该 树叶 还 没有 被 装 满 。 设 现在 要 插 人 55。 图 4-60 显示 一 个 问 
E. 55 想 要 插 人 其 中 的 那 片 树叶 已 经 满 了 。 不 过 解法 却 不 复杂 : 由 于 我 们 现在 有 工 +1 项 , 因此 
把 它们 分 成 两 片 树 叶 , 这 两 片 树叶 保证 都 有 所 需要 的 记录 的 最 小 个 数 。 我 们 形成 两 片 树叶 , 每 叶 
3 项 。 写 这 两 片 树叶 需要 2 次 磁盘 访问 , 更 新 它们 的 父 节点 需要 第 3 次 磁盘 访问 。 注 意 , 在 父 节 
点 中 关键 字 和 分 支 均 发 生 了 变化 , 但 是 这 种 变化 是 以 容易 计算 的 受 控 的 方式 处 理 的 。 最 后 得 到 
的 B 树 在 图 4-61 中 给 出 。 虽 然 分 裂 节 点 是 耗 时 的 , 因为 它 至 少 需要 2 次 附加 的 磁盘 写 , ACH 
对 很 少 发 生 。 例 如 , 如果 工 是 32, 那么 当 节 点 被 分 裂 时 , 具有 16 和 17 项 的 两 片 树叶 分 别 被 建 
Zo HFA 17 项 的 那 片 树叶 , 我 们 可 以 再 执行 15 次 插入 而 不 用 另外 的 分 裂 。 换 句 话 说 , 对 于 每 
次 分 裂 , 大 致 存在 L/2 次 非 分 裂 的 插入 。 


leris? ] 
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图 4-60 将 57 插 入 到 图 4-59 E EE: BR 
gngess|] | 
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4-61 将 55 插 人 到 图 4-60 的 B 树 中 引起 分 裂 成 两 片 树叶 


前 面 例子 中 的 节点 分 裂 之 所 以 行 得 通 是 因为 其 父 节点 的 儿子 个 数 尚 未 满员 。 可 是 , 如 果 满 
员 了 又 会 怎样 呢 ? 例如 , 假设 我 们 想 要 把 40 插入 到 图 4-61 的 B 树 中 。 此 时 必须 把 包含 关键 字 35 
到 39 而 现在 又 要 包含 40 的 树叶 分 裂 成 2 片 树叶 。 但 是 这 将 使 父 节点 有 6 个 儿子 , 可 是 它 只 能 有 
5 个 儿子 。 因 此 , 解法 就 要 分 裂 这 个 父 节 点 。 结 果 在 图 4-62 中 给 出 。 当 父 节 点 被 分 裂 时 , 必须 更 
新 那些 关键 字 以 及 还 有 父 节点 的 父亲 的 值 , 这 样 就 招致 额外 的 两 次 磁盘 写 ( 从 而 这 次 插入 花费 5 
次 磁盘 写 ) 。 然 而 ,虽然 由 于 有 大 量 的 情况 要 考虑 而 使 得 程序 确实 不 那么 简单 , 但 是 这 些 关键 字 
还 是 以 受 控 的 方式 变化 。 

正如 这 里 的 情形 所 示 ， 当 一 个 非 叶 节点 分 列 时 , 它 的 父 节 点 得 到 了 一 个 儿子 。 如 果 父 节点 的 
儿子 个 数 已 经 达到 规定 的 限度 怎么 办 呢 ? 在 这 种 情况 下 , 继续 沿 树 向 上 分 裂 节点 直到 找到 一 个 
不 需要 再 分 烈 的 父 节 点 , 或 者 到 达 树 根 。 如 果 分 裂 树 根 , 那么 我 们 就 得 到 两 个 树 根 。 显 然 这 是 不 
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可 接受 的 , 但 我 们 可 以 建立 一 个 新 的 根 , 这 个 根 以 分 裂 得 到 的 两 个 树 根 作为 它 的 两 个 儿子 。 这 就 
是 为 什么 准许 树 根 可 以 最 少 有 两 个 儿子 的 特权 的 原因 。 这 也 是 B 树 增加 高 度 的 唯一 方式 。 不 用 
说 , 一 路 向 上 分 裂 直 到 根 的 情况 是 一 种 特别 少见 的 异常 事件 , 因为 一 棵 具有 4 层 的 树 意味 着 在 整 
个 插入 序列 中 已 经 被 分 裂 了 3 次 (假设 没有 删除 发 生 )。 事 实 上 , 任何 非 叶 节点 的 分 裂 也 是 相当 少 
见 的 。 
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4-62 把 40 插 人 到 图 4-61 的 B 树 中 引起 树叶 被 分 裂 成 两 片 然后 又 造成 父 节点 的 分 裂 


还 有 其 他 一 些 方法 处 理 儿子 过 多 的 情况 。 一 种 方法 是 在 相 邻 节点 有 空间 时 把 一 个 儿子 交 给 
该 邻 节点 领养 。 例 如 , 为 了 把 29 插入 到 图 4-62 的 B 树 中 , 可 以 把 32 移 到 下 一 片 树叶 而 腾 出 一 个 
空间 。 这 种 方法 要 求 对 父 节点 进行 修改 , 因为 有 些 关 键 字 受 到 了 影响 。 然 而 , 它 趋 向 于 使 得 节点 
更 满 ， 从 而 在 长 时 间 运 行 中 节省 空间 。 

我 们 可 以 通过 查找 要 删除 的 项 并 在 找到 后 删除 它 来 执行 删除 操作 。 问 题 在 于 , 如 果 被 删 元 
所 在 的 树叶 的 数据 项 数 已 经 是 最 小 值 , 那么 删除 后 它 的 项 数 就 低 于 最 小 值 了 。 我 们 可 以 通过 在 
邻 节点 本 身 没 有 达到 最 小 值 时 领养 一 个 邻 项 来 矫正 这 种 状况 。 如 果 相 邻 结 点 已 经 达到 最 小 值 ， 
那么 可 以 与 该 相 邻 节点 联合 以 形成 一 片 满 叶 。 可 是 , 这 意味 着 其 父 节点 失去 一 个 儿子 。 如 果 失 
去 儿子 的 结果 又 引起 父 节 点 的 儿子 数 低 于 最 小 值 , 那么 我 们 使 用 相同 的 策略 继续 进行 。 这 个 过 
程 可 以 一 直上 行 到 根 。 根 不 可 能 只 有 一 个 儿子 (要 是 允许 根 有 一 个 儿子 那 可 就 轧 夺 了 )。 如 果 这 
个 领养 过 程 的 结果 使 得 根 只 剩 下 一 个 儿子 , 那么 删除 该 根 并 让 它 的 这 个 儿子 作为 树 的 新 根 。 这 
是 B 树 降低 高 度 的 唯一 的 方式 。 例 如 , 假设 我 们 想 要 从 图 4-62 的 B 树 中 删除 99。 由 于 那 片 树叶 
只 有 两 项 而 它 的 邻居 已 经 是 最 小 值 3 MT, 因此 我 们 把 这 些 项 合并 成 有 5 项 的 一 片 新 的 树叶 。 结 
R, 它们 的 父 节 点 只 有 两 个 儿子 了 。 这 时 该 父 节点 可 以 从 它 的 邻 节点 领养 , 因为 邻 节 点 有 4 TIL 
子 。 领 养 的 结果 使 得 双方 都 有 3 个 儿子 , 结果 如 图 4-63 所 示 。 
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图 4-63 ”在 从 图 4-62 的 B 树 中 删除 99 后 的 B 树 


4.8 标准 库 中 的 集合 与 映射 


在 第 3 章 中 讨论 过 的 List 容器 即 ArrayList 和 LinkedList 用 于 查找 效率 很 低 。 因 此 , Collec- 
tions API 提供 了 两 个 附加 容器 Set 和 Map, 它们 对 诸如 插入 、 删 除 和 查找 等 基本 操作 提供 有 效 的 
实现 。 
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4.8.1 XT Set 接口 

Set 接口 代表 不 允许 重复 元 的 Collection, H0O SortedSet 给 出 的 一 种 特殊 类 型 的 Set 保证 
其 中 的 各 项 处 于 有 序 的 状态 。 因 为 一 个 Set IS-A Collection, 所 以 用 于 访问 继承 Collection 的 List 
的 项 的 方法 也 对 Set 有 效 。 图 3-6 中 描述 的 print 方法 如 果 传 送 一 个 Sec 也 将 会 正常 工作 。 

由 Set 所 要 求 的 一 些 独 特 的 操作 是 一 些 插 人 、 删 除 以 及 (有 效 地 ) 执 行 基本 查找 的 能 力 。 对 于 
Set, add 方 法 如 果 执 行 成 功 则 返回 true, 否则 返回 false, 因为 被 添加 的 项 已 经 存在 。 保 持 各 项 
以 有 序 状 态 的 Set 的 实现 是 TreeSet, TreeSet 类 的 基本 操作 花费 对 数 最 坏 情 形 时 间 。 

默认 情况 下 ,排序 假设 TreeSet 中 的 项 实现 Comparable 接口 。 另 一 种 排序 可 以 通过 用 Com- 
parator 实例 化 TreeSet 来 确定 。 例 如 , 我 们 可 以 创建 一 个 存储 String 对 象 的 TreeSet, 通过 使 用 
图 1-18 中 编写 的 CaseInsensitiveCompare 函数 对 象 忽略 大 小 写 。 下 面 的 代码 中 , Set s 大 小 为 1。 

Set<String> s = new TreeSet<String>( new CaseInsensitiveCompare( ) ); 

s.add( "Hello" ); s.add( "Hello" ); 

System.out.println( "The size is: " * s.size( ) ); 

4.8.2 关于 Map 接口 

Map 是 一 个 接口 , 代表 由 关键 字 以 及 它们 的 值 组 成 的 一 些 项 的 集合 。 关 键 字 必 须 是 唯一 的 ， 
但 是 若干 关键 字 可 以 映射 到 一 些 相同 的 值 。 因 此 , 值 不 必 是 唯一 的 。 在 SortedMap 接口 中 , 映射 
中 的 关键 字 保 持 逻 辑 上 有 序 状态 。SortedMap 接口 的 一 种 实现 是 TreeMap 类 。Map 的 基本 操作 包 
括 诸如 isEmpty, clear, size 等 方法 , 而 且 最 重要 的 是 包含 下 列 方法 : 

boolean containsKey( KeyType key ) 

ValueType get( KeyType key ) 

ValueType put( KeyType key, ValueType value ) 

get 返回 Map 中 与 key 相关 的 值 , 或 当 key 不 存在 时 返回 null。 如 果 在 Map 中 不 存在 null 
值 , 那么 由 get 返回 的 值 可 以 用 来 确定 key 是 否 在 Map 中 。 然 而 , MRA null (A, 那么 必须 使 
用 containsKey。 方 法 put 把 关键 字 / 值 对 置信 Map 中 , 或 者 返回 null, 或 者 返回 与 key MRAM 
老 值 。 

通过 一 个 Map 进行 迭代 要 比 Collection 复杂, 因为 Map 不 提供 和 迭代 器 ,而 是 提供 3 种 方法 ， 
将 Map 对 象 的 视图 作为 Collection 对 象 返 回 。 由 于 这 些 视 图 本 身 就 是 Collection, 因此 它们 可 
以 被 迭代 。 所 提供 的 3 种 方法 如 下 : 

Set«KeyType» keySet( ) 

Collection<ValueType> values( ) 

Set«Map.Entry«KeyType,ValueType»» entrySet( ) 
方法 keySet 和 values 返回 简单 的 集合 (这 些 关键 字 不 包含 重复 元 , 因此 以 一 个 Set 对 象 的 形式 返 
回 )。 这 里 的 entrySet 方法 是 作为 一 些 项 而 形成 的 Set 对 象 被 返回 的 (由 于 关键 字 是 唯一 的 ， 因 
此 不 存在 重复 项 )。 每 一 项 均 由 被 栎 套 的 接口 Map. Entry 表示 。 对 于 类 型 Map. Entry 的 对 象 , 其 
现 有 的 方法 包括 访问 关键 字 、 关 键 字 的 值 , 以 及 改变 关键 字 的 值 : 

KeyType getKey( ) 

ValueType getValue( ) 

ValueType setValue( ValueType newValue ) 

4.8.3 TreeSet 类 和 TreeMap 类 的 实现 

Java 要 求 TreeSet 和 TreeMap 支持 基本 的 add, remove 和 contains 操作 以 对 数 最 坏 情 形 时 间 

完成 。 因 此 , 基本 的 实现 方法 就 是 平衡 二 叉 查找 树 。 一 般 说 来 , 我 们 并 不 使 用 AVL BI, 而 是 经 
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常 使 用 一 些 自 顶 向 下 的 红 黑 树 , 这 种 树 我 们 将 在 12.2 节 讨 论 。 

实现 TreeSet 和 TreeMap 的 一 个 重要 问题 是 提供 对 迭代 器 类 的 支持 。 当 然 , 在 内 部 , 和 迭代 器 
保留 到 迭代 中 “当前 ”节点 的 一 个 链接 。 困 难 部 分 是 到 下 一 个 节点 高 效 的 推进 。 存 在 几 种 可 能 的 
解决 方案 , 其 中 的 一 些 方案 叙述 如 下 : 

1. 在 构造 选 代 器 时 , 让 每 个 迭代 器 把 包含 诸 TreeSet 项 的 数组 作为 该 迭代 器 的 数据 存储 。 
这 有 不 足 , 因为 我 们 还 可 以 使 用 toArray, 并 不 需要 迭代 器 。 

2. 让 迭代 器 保留 存储 通 向 当前 节点 的 路 径 上 的 节点 的 一 个 栈 。 根 据 该 信息 , 可 以 推出 迭代 
器 中 的 下 一 个 节点 , 它 或 者 是 包含 最 小 项 的 当前 节点 右 子 树 上 的 节点 , 或 者 包含 其 左 子 树 当 前 节 
点 的 最 近 的 祖先 。 这 使 得 迭代 器 多 少 有 些 大 , 并 导致 迭代 器 的 代码 腾 肿 。 

3. 让 查找 树 中 的 每 个 节点 除 存 储 子 节点 外 还 要 存储 它 的 父 节 点 。 此 时 迭代 器 不 至 于 那么 
X, 但 是 在 每 个 节点 上 需要 额外 的 内 存 , 并 且 和 迭代 器 的 代码 仍然 腾 肿 。 

4. 让 每 个 节点 保留 两 个 附加 的 链 : 一 个 通 向 下 一 个 更 小 的 节点 , 另 一 个 通 向 下 一 个 更 大 的 
节点 。 这 要 占用 空间 , 不 过 和 迭代 器 做 起 来 非常 简单 , 并 且 保 留 这 些 链 也 很 容易 。 

5. 只 对 那些 具有 null 左 链 或 null 右 链 的 节点 保留 附加 的 链 。 通 过 使 用 附加 的 布尔 变量 使 
得 这 些 例 程 判断 是 一 个 左 链 正 在 被 用 作 标 准 的 二 叉 树 左 链 还 是 一 个 通 向 下 一 个 更 小 节点 的 链 ， 
类 似 地 ,对 右 链 也 有 类 似 的 判断 ( 见 练习 4.50)。 这 种 做 法 叫做 线索 树 (threaded tree), 用 于 许多 
平衡 二 叉 查 找 树 的 实现 中 。 
4.8.4 使 用 多 个 映射 的 例 

许多 单词 都 和 另外 一 些 单词 相似 。 例 如 , 通过 改变 第 1 个 字母 , 单词 wine 可 以 变 成 dine、 
fine, line, mine, nine, pine 或 vine。 通 过 改变 第 3 个 字母 , wine 可 以 变 成 wide, wife, wipe 或 wire; 
通过 改变 第 4 个 字母 wine 可 以 变 成 wind、wing、wink 或 wins。 这 样 我 们 就 得 到 15 个 不 同 的 单 
i], 它们 仅仅 通过 改变 wine 中 的 一 个 字母 而 得 到 。 实 际 上 , 存在 20 多 个 不 同 的 单词 , 其 中 有 些 
单词 更 生僻 。 我 们 想 要 编写 一 个 程序 以 找 出 通过 单个 字母 的 替换 可 以 变 成 至 少 15 个 其 他 单词 的 
单词 。 假 设 我 们 有 一 个 词典 , HAA 89 000 个 不 同 长 度 的 不 同 单词 组 成 。 大 部 分 单词 在 6 一 11 
个 字母 之 间 。 其 中 6 字母 单词 有 8 205 +, 7 字母 单词 有 11989 个 , 8 字母 单词 13672 个 , 9 字母 
单词 13014 个, 10 字母 单词 11 297 个 , 11 字母 单词 8617 个 (实际 上 , 最 可 变化 的 单词 是 3 字母 、 
4 字母 和 5 字母 单词 , 不 过 , 更 长 的 单词 检查 起 来 更 耗费 时 间 )。 

最 直接 了 当 的 策略 是 使 用 一 个 Map UR, 其 中 的 关键 字 是 单词 , 而 关键 字 的 值 是 用 1 字母 替 
换 能 够 从 关键 字 变 换 得 到 的 一 列 单词 。 图 4-64 中 的 例 程 显示 最 后 得 到 的 (我 们 必须 写 出 这 部 分 
的 代码 )Map 如 何 能 够 用 来 打印 所 要 求 的 答案 。 该 程序 得 到 项 的 集合 并 使 用 增强 的 for 循环 遍历 
该 项 集合 并 观察 这 些 由 一 个 单词 和 一 列 单词 组 成 的 序 偶 。 

主要 的 问题 是 如 何 从 包含 89 000 个 单词 的 数组 构造 Map 对 象 。 图 4-65 中 的 例 程 是 测试 除 一 
个 字母 替换 外 两 个 字母 是 否 相 等 的 简单 范 数 。 我 们 可 以 使 用 该 例 程 以 提供 最 简单 的 Map 构造 算 
法 , 它 是 所 有 单词 序 偶 的 蛮 力 测试 。 这 个 算法 如 图 4-66 所 示 。 

为 了 遍历 单词 的 集合 , 可 以 使 用 一 个 和 迭代 器 , 但 是 ,因为 我 们 正在 通过 一 个 和 伐 套 ( 即 多 次 ) 循 
环 遍 历 该 集合 , 因此 使 用 toArray 将 该 集合 转 储 到 一 个 数组 (第 9 行 和 第 11 行 )。 尤 其 是 , 这 避免 
了 重复 调用 以 使 从 Object 向 String 转化 ,如 果 使 用 泛 型 那么 它 将 发 生 在 幕后 。 而 我 们 这 里 则 是 
直接 给 String[ ] 对 象 添 加 下 标 来 使 用 。 

如 果 我 们 发 现 一 对 单词 只 有 一 个 字母 不 同 , 那么 可 以 在 16 行 和 17 行 更 新 该 Map 对 象 。 在 私 
有 的 update 方法 中 , 我 们 在 第 26 行 能 够 看 到 , 是 否 已 经 存在 一 列 与 关键 字 相关 的 单词 ， 如 果 前 
面 已 经 见 过 key, 因为 1st 不 是 null, 那么 它 就 在 这 个 Map 对 象 中 ， 而 我 们 只 需 将 该 新 单词 添加 
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到 这 个 Map 的 List 中 去 , 这 件 工作 是 通过 调用 第 33 行 的 add 完成 的 。 如 果 以 前 从 未 见 过 key, Af 
么 第 29 行 和 30 行 则 将 其 放 到 该 Map 对象 中 , List 大 小 为 0, 因此 add 将 该 bist 大 小 更 新 为 1。 
总 之 , 这 是 标准 的 保留 一 个 Map 的 惯用 做 法 , 其 中 的 值 是 一 个 集合 。 


public static void printHighChangeables( Map<String,List<String>> adjWords, 





l 

2 int minWords ) 
; for( Map.Entry<String,List<String>> entry : adjWords.entrySet( ) ) 
5 { 

6 List<String> words = entry.getValue( ); 

7 

8 if( words.size( ) >= minWords ) 

9 { 
10 System.out.print( entry.getKey( ) +" (" ); 
11 System.out.print( words.size( ) + "):" ); 
12 for( String w : words ) 

13 System.out.print( " " +w ); 
14 System.out.printin( ); 
15 } 
16 } 

17. + 








图 4-64 给 出 包含 一 些 单词 作为 关键 字 和 只 在 一 个 字母 上 不 同 的 一 列 单词 作为 关键 字 的 值 ， 
输出 那些 具有 minWords 个 或 更 多 个 通过 1 字母 替换 得 到 的 单词 的 单词 





— — — — — — — 


// Returns true if word] and word2 are the same length 


1 

2  // and differ in only one character. 

3 private static boolean oneCharOff( String wordl, String word2 ) 
4 { 

5 if( wordl.length( ) != word2.length( ) ) 

6 return false; 

7 

8 int diffs = 0; 

9 
10 for( int i = 0; i « wordl.length( ); i++ ) 
11 if( wordl.charAt( i ) != word2.charAt( i ) ) 
12 if( ++diffs > 1) 
13 return false; 
14 
15 return diffs == 1; 
16 ) 


图 4-65 ”检测 两 个 单词 是 否 只 在 一 个 字母 上 不 同 的 例 程 


该 算法 的 问题 在 于 速度 慢 , 在 我 们 的 计算 机 .上 花费 96 秒 的 时 间 。 一 个 明显 的 改进 是 避免 比 
较 不 同 长 度 的 单词 。 我 们 可 以 把 单词 按照 长 度 分 组 ,然后 对 各 个 分 组 运行 刚才 提供 的 程序 。 

为 此 , 可 以 使 用 第 2 个 映射 ! 此 时 的 关键 字 是 个 整数 , 代表 单词 的 长 , 而 值 则 是 该 长 度 的 所 
有 单词 的 集合 。 我 们 可 以 使 用 一 个 List 存储 每 个 集合 , 然后 应 用 相同 的 做 法 。 程 序 如 图 4-67 所 
示 。 第 9 行 是 第 2 个 Map 的 声明 , 第 13 行 和 第 14 行将 分 组 置 人 该 Map, 然后 用 一 个 附加 的 循环 对 
每 组 单词 迭代。 与 第 1 个 算法 比较 , 第 2 个 算法 只 是 在 边际 上 编程 困难 , 其 运行 时 间 为 51 秒 , 大 
约 快 了 一 倍 。 
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// Computes a map in which the keys are words and values are Lists of words 
// that differ in only one character from the corresponding key. 
// Uses a quadratic algorithm (with appropriate Map). 
public static Map<String,List<String>> 
computeAdjacentWords( List«String» theWords ) 
{ 
Map<String,List<String>> adjWords = new TreeMap<String,List<String>>( ); 


Oo 7-1 AN BW DH 一 


String [ ] words = new String[ theWords.size( ) ]; 


theWords.toArray( words ); 
for( int i = 0; i < words.length; i++ ) 
for( int j = i+ 1; j < words.length; j++ ) 
if( oneCharOff( words[ i ], words[ 3 1 ) ) 
{ 
update( adjWords, words[ i ], words[ j ] ); 
update( adjWords, words[ j ], words[ i ] ) 


) 


return adjWords; 


) 


private static «KeyType» void update( Map«KeyType,List«String»» m, 
KeyType key, String value ) 


{ 
List<String> Ist = m.get( key ); 
if( Ist == null ) 
{ 
Ist = new ArrayList<String>( ); 
m.put( key, Ist ); 
} 


Ist.add( value ); 





图 4-66 计算 一 个 Map 对 象 的 函数 ,该 对 象 以 一 些 单词 作为 关键 字 而 以 只 在 一 个 字母 处 不 同 
的 一 列 单词 作为 关键 字 的 值 。 该 函数 对 一 个 89 000 单词 的 词典 运行 9 秒 


第 3 个 算法 更 复杂 , 使 用 一 些 附 加 的 映射 ! 和 前 面 一 样 , 将 单词 按照 长 度 分 组 , 然后 分 别 对 
每 组 运算 。 为 理解 这 个 算法 是 如 何 工作 的 , 假设 我 们 对 长 度 为 4 的 单词 操作 。 这 时 , 首先 要 找 出 
像 wine 和 nine 这 样 的 单词 对 , 它们 除 第 1 个 字母 外 完全 相同 。 对 于 长 度 为 4 的 每 一 个 单词 ,一 
种 做 法 是 删除 第 1 个 字母 , 留 下 一 个 3 字母 单词 代表 。 这 样 就 形成 一 个 Map, 其 中 的 关键 字 为 这 
种 代表 , 而 其 值 是 所 有 包含 同一 代表 的 单词 的 一 个 List。 例 如 , 在 考虑 4 字母 单词 组 的 第 1 个 字 
母 时 , 代表 “ine” 对 应 “dine”、“fine”、“wine”、“nine”、“mine”、“vine”、“pine”、“line”。 代 表 “oot” 对 
应 “boot”、“foot”、“hoot”、“loot”、“soot”、“zoot”。 每 一 个 作为 最 后 的 Map 的 一 个 值 的 List 对 象 都 
形成 单词 的 一 个 集团 , 其 中 任何 一 个 单词 均 可 以 通过 单字 母 替 换 变 成 男 一 个 单词 , 因此 在 这 个 最 
后 的 Map 构成 之 后 , 很 容易 遍历 它 以 及 添加 一 些 项 到 正在 计算 的 原始 Map 中 。 然 后 , 我 们 使 用 一 
个 新 的 Map 再 处 理 4 字母 单词 组 的 第 2 个 字母 。 此 后 是 第 3 个 字母 , 最 后 处 理 第 4 个 字母 。 

一 般 概 述 如 下 : 
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for each group g, containing words of length len 
for each position p {ranging from 0 to len-1) 
{ 
Make an empty Map<String,List<String> > repsToWords 
for each word w 
{ 
Obtain w's representative by removing position p 
Update repsToWords 
) 


Use cliques in repsToWords to update adjWords map 














) 
| 1 // Computes a map in which the keys are words and values are Lists of m 

2 that differ in only one character from the corresponding key. 
3 // Uses a quadratic algorithm (with appropriate Map), but speeds things by 
4 f/f maintaining an additional map that groups words by their length. 
5 public static MapsString,List«String»» 
6 | computeAdjacentWords( List«String» theWords ) 
7 d 
8 Map<String,List<String>> adjWords = new TreeMap<String,List<String>>( ); 
9 Map<Integer,List<String>> wordsByLength = 

A new TreeMap<Integer,List<String>>( ); 

|] 

12 // Group the words by their length 

13 for( String w : theWords ) 

14 :  update( wordsByLength, w.length( ), w ); | 
15 

16 // Work on each group separately 

17 for( List<String> groupsWords : wordsByLength.values( ) ) 

18 ( 

19 String [ ] words = new String[ groupsWords.size( ) ]; 

20 

21 grqupsWords.toArray( words ); 

22 for( int i = 0; i < words.length; i++ ) 

23 |: for( int j = i + 1; j < words.length; j++ ) 

24 if( oneCharOff( words[ i ], words[ j ] ) ) 

25 ( 

26 update( adjWords, words[ i ], words[ j ] ); 

27 update( adjWords, words[ j ], words[ i ] ); 


} 


return adjWords; 





图 4-67 计算 一 个 映射 的 函数 , 该 映射 以 单词 作为 关键 字 并 且 以 只 有 一 个 字母 不 同 的 一 列 单词 
作为 关键 字 的 值 。 将 单词 按照 长 度 分 组 。 该 算法 对 89 000 个 单词 的 词典 运行 51 秒 


图 4-68 包含 该 算法 的 一 种 实现 , 其 运行 时 间 改 进 到 4 秒 。 虽 然 这 些 附 加 的 Map 使 得 算法 更 
快 ,而 且 句 子 结构 也 相对 清晰 , 但 是 程序 没有 利用 到 该 Map 的 关键 字 保持 有 序 排列 的 事实 , 注意 
到 这 一 点 很 有 趣 。 
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] // Computes a map in which the keys are words and values are Lists of words 
2 // that differ in only one character from the corresponding key. 
3 // Uses an efficient algorithm that is O(N log N) with a TreeMap. 
4 public static Map<String,List<String>> 
5 computeAdjacentWords( List«String» words ) 
6 { 
7 Map<String,List<String>> adjWords = new TreeMap<String,List<String>>( ); 
8 Map<Integer,List<String>> wordsByLength = 
k- new TreeMap<Integer,List<String>>( ); 
11 // Group the words by their length 
12 for( String w : words ) 
13 update( wordsByLength, w.length( ), w ); 
14 
15 // Work on each group separately 
16 for( Map.Entry«Integer,List«String»» entry : wordsByLength.entrySet( ) ) 
17 ( 
18 List<String> groupsWords = entry.getValue( ); 
19 int groupNum = entry.getKey( ); 
20 
21 // Work on each position in each group 
22 for( int i = 0; i < groupNum; i++ ) 
23 { 
24 // Remove one character in specified position, computing 
25 // representative. Words with same representative are 
26 // adjacent, so first populate à map ... 
27 MapsString,List«String»» repToWord = 
, 28 new TreeMap<String,List<String>>( ); 
29 
30 for( String str : groupsWords ) 
3l ( 
32 String rep = str.substring( 0, i ) + str.substring( i + 1 ); 
33 update( repToWord, rep, str ); 
34 } 
35 
36 // and then look for map values with more than one string 
37 for( List<String> wordClique : repToWord.values( ) ) 
38 if( wordClique.size( ) >= 2) 
39 for( String sl : wordClique ) 
40 for( String s2 : wordClique ) 
41 if( sl != s2 ) 
42 update( adjWords, sl, s2 ); 
43 } 
44 } 
45 





46 return adjWords; 
|a) 


图 4-68 计算 包含 单词 作为 关键 字 及 只 有 一 个 字母 不 同 的 一 列 单词 作为 值 
的 映射 的 函数 。 对 一 个 89 000 单词 的 词典 只 运行 4 秒 钟 
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同样 , 有 可 能 一 种 支持 Map 的 操作 但 不 保证 有 序 排列 的 数据 结构 可 能 运行 得 更 快 , 因为 它 要 
做 的 工作 更 少 。 第 5 章 将 探索 这 种 可 能 性 , 并 讨论 隐藏 在 另 一 种 Map 实现 背后 的 想法 , 这 种 实现 
叫做 HashMap. HashMap 将 实现 的 运行 时 间 从 4 秒 减 少 到 3 秒 。 


小 结 


我 们 已 经 看 到 树 在 操作 系统 、 编 译 器 设计 、 以 及 查找 中 的 应 用 。 表 达 式 树 是 更 一 般 结构 即 所 
谓 分 析 树 (parse tree) 的 一 个 小 例子 , 分 析 树 是 编译 器 设计 中 的 核心 数据 结构 。 分 析 树 不 是 二 又 
树 , 而 是 表达 式 树 相对 简单 的 扩充 (不 过 , 建立 分 析 树 的 算法 却 并 不 这 么 简单 )。 

查找 树 在 算法 设计 中 是 非常 重要 的 。 它 们 几乎 支持 所 有 有 用 的 操作 , 而 其 对 数 平均 开销 很 
小 。 查 找 树 的 非 递 归 实 现 多 少 要 快 一 些 , 但 是 递归 实现 更 巧妙 、 更 精彩 , 而 且 更 易于 理解 和 除 
错 。 查 找 树 的 问题 在 于 , 其 性 能 严重 地 依赖 于 输入 , 而 输入 却 是 随机 的 。 如 果 情 况 不 是 这 样 ， 则 
运行 时 间 会 显著 增加 ,查找 树 会 成 为 昂贵 的 链表 。 

我 们 见 到 了 处 理 这 个 问题 的 几 种 方法 。AVL 树 要 求 所 有 节点 的 左 子 树 与 右 子 树 的 高 度 相差 
最 多 是 1。 这 就 保证 了 树 不 至 于 太 深 。 不 改变 树 的 操作 (但 插入 操作 改变 树 ) 都 可 以 使 用 标准 二 又 
查找 树 的 程序 。 改 变 树 的 操作 必须 将 树 恢复 。 这 多 少 有 些 复杂 , 特别 是 在 删除 的 情况 。 我 们 叙 
述 了 在 以 O(log N) 的 时 间 插 入 后 如 何 将 树 恢复 。 

我 们 还 考察 了 伸展 树 。 伸 展 树 中 的 节点 可 以 达到 任意 深度 , 但 是 在 每 次 访问 之 后 树 又 以 多 
少 有 些 神 秘 的 方式 被 调整 。 实 际 效 果 是 , 任意 连续 M 次 操作 花费 O(M log N) 时 间 , 它 与 平衡 树 
花费 的 时 间 相 同 。 

与 2 路 树 或 二 又 树 不 同 , B 树 是 平衡 M 路 树 , 它 能 很 好 地 适应 磁盘 操作 的 情况 ; 一 种 特殊 情 
形 是 2-3 树 (M=3), 它 是 实现 平衡 查找 树 的 另 一 种 方法 。 

在 实践 中 , 所 有 平衡 树 方案 的 运行 时 间 对 于 插入 和 删除 操作 ( 除 查找 稍微 快 一 些 外 ) 都 不 如 
简单 二 叉 查 找 树 省 时 ( 差 一 个 常数 因子 ), 但 这 一 般 说 来 是 可 以 接受 的 , 它 防 止 轻易 得 到 最 坏 情 形 
的 输入 。 第 12 章 将 讨论 某 些 另外 的 查找 树 数据 结构 并 给 出 一 些 详 细 的 实现 方法 。 

最 后 注意 : 通过 将 一 些 元 素 插 人 到 查找 树 然 后 执行 一 次 中 序 遍 历 , 我 们 得 到 的 是 排 过 顺序 的 
元 素 。 这 给 出 排序 的 一 种 O(N log N) 算 法 , 如 果 使 用 任何 成 熟 的 查找 树 则 它 就 是 最 坏 情形 的 
界 。 我 们 将 在 第 7 章 看 到 一 些 更 好 的 方法 , 不 过 , 这 些 方法 的 时 间 界 都 不 可 能 更 低 。 


练习 


问题 4.1 一 4.3 参考 图 4-69 中 的 树 。 
4.1 ”对 于 图 4-69 中 的 树 : 
a. 哪个 节点 是 根 ? 
b. 哪些 节点 是 树叶 ? 
4.2 “对 于 图 4-69 中 树 上 的 每 一 个 节点 ， 
a. 指出 它 的 父 节 点 。 
b. 列 出 它 的 儿子 。 
c. 列 出 它 的 兄弟 。 
d. 计算 它 的 深度 。 
e. 计算 它 的 高 度 。 
4.3 4-69 中 树 的 深度 是 多 少 ? 
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证 明 在 N 个 节点 的 二 叉 树 中 , 存在 N+1 个 null 链 ,代表 N+1 个 儿子 。 

证 明 在 高 度 为 h 的 二 叉 树 中 , 节点 的 最 大 个 数 是 2 ”一 1。 

满 节 点 (full node) 是 具有 两 个 儿子 的 节点 。 证 明 满 节点 的 个 数 加 1 等 于 非 空 二 叉 树 的 树 
叶 的 个 数 。 


设 二 叉 树 有 树叶 ly , lz, — ly , 各 树叶 的 深度 分 别 是 d, „d2, dci dyc 证 明 9 2 zu 
<1 并 确定 何 时 等 号 成 立 。 
给 出 对 应 图 4-70 中 的 树 的 前 缀 表达 式 、 中 缀 表达 式 以 及 后 缀 表达 式 。 





图 4-69 练习 4.1 一 4.3 所 用 的 图 图 4-70 练习 4.8 中 的 树 


a. 指出 将 3, 1, 4, 6, 9, 2, 5, 7 插入 到 初始 为 空 二 又 查找 树 中 的 结果 。 

b. 指出 删除 根 后 的 结果 。 

编写 一 个 程序 ,该 程序 列 出 一 个 目录 中 所 有 的 文件 和 它们 的 大 小 。 模 拟 联机 代码 中 的 
程序 。 

编写 TreeSet 类 的 实现 程序 , 其 中 相关 的 迭代 器 使 用 二 叉 查 找 树 。 在 每 个 节点 上 添加 一 
个 指向 其 父 节 点 的 链 。 

通过 存储 类 型 TreeSet< Map. Entry< KeyType, ValueType >> 的 一 个 数据 成 员 编写 实现 
TreeMap 类 的 程序 。 

编写 TreeSet 类 的 实现 程序 , 其 中 相关 的 迭代 器 使 用 二 又 查找 树 。 在 每 个 节点 上 添加 通 
向 下 一 个 最 小 节点 和 下 一 个 最 大 节点 的 链 。 为 使 所 编程 序 更 简单 ,添加 头 节点 和 尾 节 
点 , 它们 不 属于 二 叉 树 的 一 部 分 , 但 有 助 于 使 得 程序 的 链表 部 分 更 简单 。 

设 欲 做 一 个 实验 来 验证 由 随机 insert/remove 操作 对 可 能 引起 的 问题 。 这 里 有 一 个 策 
Wk, 它 不 是 完全 随机 的 , 但 却 是 足够 封闭 的 。 通 过 插入 从 1 到 M =aN 之 间 随 机 选 出 的 
N 个 元 素来 建立 一 棵 具有 N 个 元 素 的 树 。 然 后 执行 N? 对 先 插入 后 删除 的 操作 。 假 设 
存在 例 程 randomInteger(a, b), 它 返回 一 个 在 a Mb 之 间 ( 包 括 a, 如) 的 均匀 随机 整数 。 


a. 解释 如 何 生 成 在 1 和 M 之 间 的 一 个 随机 整数 , 该 整数 不 在 这 棵 树 上 (从 而 可 以 进行 


4.15 


随机 插入 )。 用 N 和 a 来 表示 这 个 操作 的 运行 时 间 。 
b. 解释 如 何 生 成 在 1 和 M 之 间 的 一 个 随机 整数 ， 该 整数 已 经 存在 于 这 棵 树 上 (从 而 可 
以 进行 随机 删除 )。 这 个 操作 的 运行 时 间 是 多 少 ? 
c. a 的 好 的 选择 是 什么 ? 为 什么 ? 
编写 一 个 程序 , 赁 经 验 计算 下 列 删 除 具 有 两 个 儿子 的 节点 的 各 方法 的 值 : 
a. 用 T, 中 最 大 节点 和 来 代替 , 递归 地 删除 X。 
b. 交替 地 用 T, 中 最 大 的 节点 以 及 Ts 中 最 小 的 节点 来 代替 , 并 递归 地 删除 适当 的 节点 。 
c. 随机 地 选用 T, 中 最 大 的 节点 或 Tr 中 最 小 的 节点 来 代替 (递归 地 删除 适当 的 节点 )。 
哪 种 方法 给 出 最 好 的 平衡 ? 哪 种 在 处 理 整个 操作 序列 过 程 中 花费 最 少 的 CPU 时 间 ? 
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重 做 二 叉 查 找 树 类 以 实现 懒惰 删除 。 仔 细 注 意 这 将 影响 所 有 的 例 程 。 特 别 具 有 挑战 性 

的 是 findMin 和 findMax, 它们 现在 必须 递归 地 完成 。 

证 明 , 随机 二 又 查 找 树 的 深度 (最 深 的 节点 的 深度 ) 平 均 为 O(log N)。 

"a. 给 出 高 度 为 h 的 AVL 树 的 节点 的 最 少 个 数 的 精确 表达 式 。 

b. 高 度 为 15 的 AVL 树 中 节点 的 最 小 个 数 是 多 少 ? 

指出 将 2, 1, 4, 5,9, 3, 6, 7 插入 到 初始 空 AVL 树 后 的 结果 。 

依次 将 关键 字 1,2,…,2* -1 插入 到 一 棵 初始 空 AVL 树 中 。 证 明 所 得 到 的 树 是 理想 平 

衡 (perfectly balanced) 的 。 

写 出 实现 AVL 单 旋 转 和 双 旋 转 的 其 余 的 过 程 。 

设计 一 个 线性 时 间 算 法 , 该 算法 检验 AVL 树 中 的 高 度 信息 是 否 被 正确 保留 并 且 平 衡 性 

质 是 否 成 立 。 

写 出 向 AVL 树 进 行 插 入 的 非 递归 方法 。 

如 何 能 够 在 AVL 树 中 实现 ( 非 懒 情 ) 删 除 ? 

a. 为 了 存储 一 棵 N — 节点 的 AVL 树 中 一 个 节点 的 高 度 , 每 个 节点 需要 多 少 比特 (bit)? 

b. 使 8- 比特 高 度 计数 器 溢出 的 最 小 AVL 树 是 什么 ? 

写 出 执行 双 旋 转 的 方法 ,其 效率 要 超过 做 

两 个 单 旋 转 。 

指出 依 序 访问 图 4-71 的 伸展 树 中 的 关键 字 

3,9, 1, 5 后 的 结果 。 

指出 在 前 一 道 练习 所 得 到 的 伸展 树 中 删除 

具有 关键 字 6 的 元 素 后 的 结果 。 

a. 证 明 如 果 按 顺序 访问 伸展 树 中 的 所 有 节 
点 , 则 所 得 到 的 树 由 一 连 串 的 左 儿 子 
组 成 。 





4-71 练习 4.27 中 的 树 


“b. 证 明 如 果 按 顺序 访问 伸展 树 中 的 所 有 节点 ， 则 总 的 访问 时 间 是 OCN), 与 初始 树 


无 关 。 
编写 一 个 程序 对 伸展 树 执行 随机 操作 。 计 算 所 执行 的 总 的 旋转 次 数 。 与 AVL 树 和 非 平 
衡 二 叉 查 找 树 相 比 ， 其 运行 时 间 如 何 ? 
编写 一 些 高 效率 的 方法 ， 只 使 用 对 二 叉 树 的 根 的 引用 T, 并 计算 : 
a. T 中 节点 的 个 数 。 
b. T 中 树叶 的 片 数 。 
c. 工 中 满 节点 的 个 数 。 
设计 一 个 递归 的 线性 算法 , 该 算法 测试 一 棵 二 叉 树 是 否 在 每 一 个 节点 都 满足 查找 树 的 
序 的 性 质 。 
编写 一 个 递归 方法 , 该 方法 使 用 对 树 T 的 根 节点 的 引用 而 返回 从 下 删除 所 有 树叶 所 得 
到 的 树 的 根 节点 的 引用 。 
写 出 生成 一 棵 N- 节点 随机 二 又 查 找 树 的 方法 , 该 树 具有 从 1 直到 N 的 不 同 的 关键 字 。 
你 所 编写 的 例 程 的 运行 时 间 是 多 少 ? 
写 出 生成 具有 最 少 节点 高 度 为 h 的 AVL 树 的 方法 , 该 方法 的 运行 时 间 是 多 少 ? 
编写 一 个 方法 , 使 它 生 成 一 棵 具有 关键 字 从 1 直到 2**!1 -1 且 高 为 h 的 理想 平衡 二 叉 
查找 树 (perfectly balanced binary search tree)。 该 方法 运行 时 间 是 多 少 ? 
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编写 一 个 方法 以 二 叉 查 找 树 T 和 两 个 有 序 的 关键 字 ki Mk. 作为 输入 , 其 中 e Lh, 

并 打印 树 中 所 有 满足 kí SCKey( X) mh, 的 元 素 X。 除 可 以 被 排序 外 , 不 对 关键 字 的 类 型 

做 任何 假设 。 所 写 的 程序 应 该 以 平均 时 间 OCK + log N) 运 行 , 其 中 K 是 所 打印 的 关键 

字 的 个 数 。 确 定 你 的 算法 的 运行 时 间 界 。 

本 章 中 一 些 更 大 的 二 叉 树 是 由 一 个 程序 自动 生成 的 。 可 以 采取 这 种 办 法 : 给 树 的 每 一 

个 节点 指定 坐标 (z，y)， 围 绕 每 个 坐标 点 画 一 个 圆圈 (在 某 些 图 片 中 这 可 能 很 难看 清 )， 

并 将 每 个 节点 连 到 它 的 父 节 点 上 上。 假设 在 存储 器 中 存 有 一 棵 二 叉 查找 树 (或 许 是 由 上 面 

的 一 个 例 程 生成 的 ) 并 设 每 个 节点 都 有 两 个 附加 的 域 存放 坐标 。 

a. 坐标 x 可 以 通过 指定 中 序 遍 历数 来 计算 。 写 出 一 个 例 程 对 树 中 的 每 个 节点 做 这 个 工 
f£. 

b. 坐标 y 可 以 通过 使 用 节点 深度 的 负 值 算出 。 写 出 一 个 例 程 对 树 中 的 每 个 节点 做 这 个 
工作 。 

c. 若 使 用 某 个 虚拟 的 单位 表示 , 则 所 画图 形 的 具体 尺寸 是 多 少 ? 如 何 调整 单位 使 得 所 
画 的 树 总 是 高 大 约 为 宽 的 三 分 之 二 ? 

d. WR, 使 用 这 个 系统 没有 交叉 的 线 出 现 , 同时 , 对 于 任意 节点 X，X 的 左 子 树 的 所 有 
元 素 都 出 现在 X 的 左边 ,X 的 右 子 树 的 所 有 元 素 都 出 现在 X 的 右边 。 

编写 一 个 通用 的 画 树 程序 ,该 程序 将 把 一 棵 树 转 变 成 下 列 的 图 - 汇编 指令 : 

a. Circle(X, Y) 

b. DrawLine(i, j) 

第 一 个 指令 在 (X，Y) 处 画 一 个 圆 ， 而 第 二 个 指令 则 连接 第 i 个 圆 和 第 /个 圆 ( 圆 以 所 画 

的 顺序 编号 ) 。 你 或 者 把 它 写 成 一 个 程序 并 定义 某 种 输入 语言 ,或 者 把 它 写 成 一 个 方 

法 , 该 方法 可 以 被 任何 程序 调用 。 你 的 程序 的 运行 时 间 是 多 少 ? 

(这 道 题 假设 熟悉 Java 的 Swing 类 库 ) 编 写 一 个 程序 , 该 程序 读 图 - 汇编 指令 并 生成 Ja- 

va 程序 , 后 者 画 到 画布 (Canvas) 上 (注意 , 你 必须 把 所 存储 的 坐标 用 像素 来 表示 )。 


”编写 一 个 例 程 以 层 序 (level-order) 列 出 二 叉 树 的 节点 。 先 列 出 根 , 然后 列 出 深度 为 1 的 


那些 节点 , 再 列 出 深度 为 2 的 节点 , 等 等 。 必 须要 在 线性 时 间 内 完成 这 个 工作 。 证 明 你 
的 时 间 界 。 


"a. 写 出 向 一 棵 B 树 进行 插入 的 例 程 。 
b. 写 出 从 一 棵 B 树 执行 删除 的 例 程 。 当 一 项 被 删除 时 , 是 否 有 必要 更 新 内 部 节点 的 信 


息 ? 


"c. 修改 你 的 插 人 例 程 , 使 得 如 果 想 要 向 一 个 已 经 有 M 项 的 节点 添加 元 素 , 则 在 分 裂 该 


节点 以 前 要 执行 搜索 具有 少 于 M 个 儿子 的 兄弟 的 工作 。 
M Wt B' RECB" tree) 是 其 每 个 内 部 节点 的 儿子 数 在 2M/3 和 M 之 间 的 B 树 。 描 述 一 种 
向 B' 树 执行 插入 的 方法 。 
指出 如 何 用 儿子 /兄弟 链 实现 方法 表示 图 4-72 中 的 树 。 
编写 一 个 过 程 使 该 过 程 遍历 一 棵 用 儿子 /兄弟 链 存 储 的 树 。 
如 果 两 棵 二 叉 树 或 者 都 是 空 树 , 或 者 非 空 且 具 有 相似 的 左 子 树 和 右 子 树 , 则 这 两 棵 二 叉 
树 是 相似 的 。 编 写 一 个 方法 以 确定 是 否 两 棵 二 叉 树 是 相似 的 。 你 的 方法 的 运行 时 间 如 
何 ? 
如 果树 Ti 通过 交换 其 ( 某 些 ) 节 点 的 左右 儿子 变换 成 树 TS, WHT, 和 T. 是 同 构 
的 (isomorphic)。 例 如 , 图 4-73 中 的 两 棵 树 是 同 构 的 , 因为 交换 A、B、G 的 儿子 而 不 交 
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换 其 他 节点 的 儿子 后 这 两 棵 树 是 相同 的 。 
a. 给 出 一 个 多 项 式 时 间 算 法 以 决定 是 否 两 棵 树 是 同 构 的 。 


* b. 你 的 程序 的 运行 时 间 是 多 少 (存在 一 个 线性 的 解决 方案 )? 





4-72 练习 4.44 中 的 树 图 4-73 ”两 棵 同 构 的 树 


*a. 证 明 , 经 过 一 些 AVL 单 旋转 , 任意 二 叉 查 找 树 T, 可 以 变换 成 另 一 棵 (具有 相同 项 


的 ) 查 找 树 T». 


'b. 给 出 一 个 算法 平均 用 O(N log N) 次 旋转 完成 这 种 变换 。 
"c. 证 明 该 变换 在 最 坏 的 情形 下 可 以 用 O(N) 次 旋转 完成 。 


设 我 们 想 要 把 运算 findkth 添加 到 指令 集中 。 该 运算 findKth(k) 返 回 树 的 第 个 最 小 
Jj. 假设 所 有 的 项 都 是 互 异 的 。 解 释 如 何 修 改 二 叉 树 以 平均 O(log N) 时 间 支 持 这 种 运 
算 , 而 又 不 影响 任何 其 他 操作 的 时 间 界 。 
由 于 具有 N 个 节点 的 二 叉 查 找 树 有 N+1l 个 null 引用 , 因此 在 二 叉 查 找 树 中 指定 给 链 
接 信息 的 空间 的 一 半 被 浪费 了 。 设 若 一 个 节点 有 一 个 null 左 儿子 , 我 们 使 它 的 左 儿子 
链接 到 它 的 中 序 前 驱 元 (inorder predecessor), 若 一 个 节点 有 一 个 null 右 儿 子 , 我 们 让 它 
的 右 儿 子 链 接 到 它 的 中 序 后 继 元 (inorder successor)。 这 就 叫做 线索 树 (threaded tree), ， 而 
附加 的 链 就 叫做 线索 (thread) 。 
a. 我 们 如 何 能 够 从 实际 儿子 的 链 中 区 分 出 线索 ? 
b. 编写 执行 向 由 上 面 描 述 的 方式 形成 的 线索 树 进 行 插 入 的 例 程 和 删除 的 例 程 。 
c. 使 用 线索 树 的 优点 是 什么 ? 
S F(N) 为 一 棵 N 节点 二 叉 查 找 树 中 满 节 点 的 平均 个 数 。 
a. 确定 f/(0)f f(1) 的 值 。 
b. 证 明 , 对 于 N»1 
KD SAU) + (UN - E71) 

c.〈 用 归纳 法 ) 证 明 FON) - (N - 2) 73 是 问题 (b) 中 的 方程 的 解 , 其 初始 条 件 在 问题 (a) 

中 。 
d. 应 用 练习 4.6 的 结果 确定 二 又 查找 树 中 树叶 的 平均 个 数 。 
编写 一 个 程序 , 该 程序 读 Java 源 代 码 文件 并 以 字母 顺序 输出 所 有 的 标识 符 ( 即 变量 名 而 
非 关 键 字 , 并 且 这 些 变量 名 不 是 从 注释 和 串 常数 中 找 出 的 )。 每 个 标识 符 要 和 人 它 所 在 的 
那些 行 的 一 列 行 号 一 起 输出 。 
为 一 本 书生 成 一 个 索引 。 输 入 文件 由 一 组 索引 项 组 成 。 每 行 由 串 IX: 组 成 , 后 跟 一 个 
索引 项 的 名 字 ( 封 在 大 括号 内 ), 后 面 是 封 在 大 括号 内 的 页 号 。 在 索引 项 名 字 中 的 每 个 ! 
代表 一 个 子 层 (sub 一 level)。 符 号 (| 代表 一 个 范围 的 开始 , 而 | ) 则 代表 这 个 范围 的 结束 。 ， 
偶尔 这 个 范围 是 同一 页 。 在 这 种 情形 下 只 输出 一 个 页 号 。 在 其 他 情况 下 不 要 套 辣 , 否则 
你 自己 就 扩大 了 范围 。 例 如 , 图 4-74 显示 一 个 样本 输入 , 而 图 4-75 则 显示 对 应 的 输出 。 
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IX:{Series |() {2} 
IX:(Series!geometric|() (4) 
IX:(Euler's constant) (4) 
IX:(Series!geometric|)) (4) 
IX:(Series!arithmetic| (} (4) 
IX: (Serieslarithmetic|)) (5) 
IX:(Series!harmonic|() {5} 
IX:(Euler's constant) (5) 
IX:(Series!harmonic|)) {5} 
IX:{Series|)} {5} 







Euler'sconstant: 4,5 
Series:2-5 
arithmetic: 4-5 
geometric: 4 
harmonic: 5 














图 4-74 练习 4.53 的 样本 输入 图 4-75 ”练习 4.53 的 样本 输出 
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第 5 章 BE J 


我 们 在 第 4 章 讨论 了 查找 树 ADT, 它 允 许 对 元 素 的 集合 进行 各 种 操作 。 本 章 讨论 散 列表 
(hash table) ADT, 不 过 它 只 支持 二 叉 查 找 树 所 允许 的 一 部 分 操作 。 

散 列表 的 实现 常常 叫做 散 列 (hashing)。 散 列 是 一 种 用 于 以 常数 平均 时 间 执 行 插 和 人 人、 删除 和 
查找 的 技术 。 但 是 , 那些 需要 元 素 间 任何 排序 信息 的 树 操作 将 不 会 得 到 有 效 的 支持 。 因 此 , 诸如 
findMin, findMax 以 及 以 线性 时 间 将 排 过 序 的 整个 表 进 行 打印 的 操作 都 是 散 列 所 不 支持 的 。 

本 章 的 中 心 数据 结构 是 散 列 表 。 我 们 将 

。 看 到 实现 散 列 表 的 几 种 方法 。 

。 解析 地 比较 这 些 方法 。 

* 介绍 散 列 的 多 种 应 用 。 

。 将 散 列 表 和 二 叉 查 找 树 进行 比较 。 


5.1 一 般 想 法 


理想 的 散 列表 数据 结构 只 不 过 是 一 个 包含 一 些 项 (item) 的 具有 固定 大 小 的 数组 。 第 4 章 讨论 
kl, 通常 查找 是 对 项 的 某 个 部 分 ( 即 数据 域 ) 进 行 的 。 这 部 分 就 
叫做 关键 字 (key)。 例 如 , 项 可 以 由 一 个 串 ( 它 可 以 作为 关键 
字 ) 和 其 他 一 些 数据 域 组 成 (例如 , 姓名 是 大 型 雇员 结构 的 一 部 
分 )。 我 们 把 表 的 大 小 记 作 TableSize , 并 将 其 理解 为 散 列 数据 
结构 的 一 部 分 ,而 不 仅仅 是 浮动 于 全 局 的 某 个 变量 。 通 常 的 习 
惯 是 让 表 从 0 到 TableSize — 1 变化 ; 稍 后 我 们 就 会 明白 为 什么 
要 这 样 做 。 

每 个 关键 字 被 映射 到 从 0 到 TableSize — 1 这 个 范围 中 的 革 
个 数 , 并 且 被 放 到 适当 的 单元 中 。 这 个 映射 就 叫做 散 列 函数 
(hash function), 理想 情况 下 它 应 该 计算 起 来 简单 ,并 且 应 该 保 
证 任何 两 个 不 同 的 关键 字 映 射 到 不 同 的 单元 。 不 过 , 这 是 不 可 
能 的 , 因为 单元 的 数目 是 有 限 的 , 而 关键 字 实 际 上 是 用 不 完 
M. Bil, 我 们 寻找 一 个 散 列 函 数 ,该 函数 要 在 单元 之 间 均 匀 。 5 图 1 一 个 理想 的 散 列表 
地 分 配 关键 字 。 图 5-1 是 完美 情况 的 一 个 典型 。 在 这 个 例子 中 , john 散 列 到 3，phil 散 列 到 4, 
dave 散 列 到 6, mary 散 列 到 7。 

这 就 是 散 列 的 基本 想法 。 剩 下 的 问题 就 是 要 选择 一 个 函数 , 决定 当 两 个 关键 字 散 列 到 同一 
个 值 的 时 候 (这 叫做 冲突 (collision) ) 应 该 做 什么 以 及 如 何 确定 散 列 表 的 大 小 。 


5.2 散 列 函数 


如 果 输 入 的 关键 字 是 整数 , 则 一 般 合 理 的 方法 就 是 直接 返回 Key mod Tablesize, 除非 Key t 
巧 具 有 某 些 不 合乎 需要 的 性 质 。 在 这 种 情况 下 , 散 列 函数 的 选择 需要 仔细 地 考虑 。 例 如 , ER 
大 小 是 10 而 关键 字 都 以 0 为 个 位 , 则 此 时 上 述 标准 的 散 列 观 数 就 是 一 个 不 好 的 选择 。 其 原因 我 
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们 将 在 后 面 看 到 , 而 为 了 避免 上 面 那样 的 情况 , 好 的 办 法 通常 是 保证 表 的 大 小 是 素数 。 当 输入 的 
关键 字 是 随机 整数 时 , 散 列 函数 不 仅 计算 起 来 简单 而 且 关 键 字 的 分 配 也 很 均匀 。 

通常 ,关键 字 是 字符 串 ; 在 这 种 情形 下 , 散 列 函数 需要 仔细 地 选择 。 

一 种 选择 方法 是 把 字符 串 中 字符 的 ASCII 码 (或 Unicode 码 ) 值 加 起 来 。 图 5-2 中 的 例 程 实现 
: 这 种 策略 。 

5-2 中 描述 的 散 列 函数 实现 起 来 简单 而 且 能 够 很 快 地 计算 出 答案 。 不 过 , MRRRK, K 
数 将 不 会 很 好 地 分 配 关 键 字 。 例 如 , 设 TableSize= 10 007(10 007 BRR), 并 设 所 有 的 关键 字 至 
多 8 个 字符 长 。 由 于 ASCII 字 符 的 值 最 多 是 127, 因此 散 列 函数 只 能 假设 值 在 0 和 1016 之 间 , 其 
中 1016 为 127*8。 显 然 这 不 是 一 种 均匀 的 分 配 。 


public static int hash( String key, int tableSize ) 
( 
int hashVal = 0; 


for( int i = 0; i < key.length( ); i++ ) 
hashVal += key.charAt( i ); 


return hashVal * tableSize; 


1 
2 
3 
4 
5 
6 
7 
8 
9 





图 5-2 ”一 个 简单 的 散 列 函数 


另 一 个 散 列 函数 如 图 5-3 所 示 。 这 个 散 列 画 数 假设 Key 至 少 有 3 个 字符 。 值 27 表示 英文 字 
母 表 的 字母 外 加 一 个 空格 的 个 数 , 而 729 是 27*。 该 函数 只 考查 前 三 个 字符 , 但 是 , 假如 它们 是 
随机 的 , 而 表 的 大 小 像 前 面 那样 还 是 10007, 那么 我 们 就 会 得 到 一 个 合理 的 均衡 分 布 。 可 是 不 巧 
的 是 , 英文 不 是 随机 的 。 虽 然 3 个 字符 (忽略 空格 ) 有 26 = 17 576 种 可 能 的 组 合 , 但 查验 合理 的 
足够 大 的 联机 词典 却 揭示 : 3 个 字母 的 不 同 组 合 数 实际 只 有 2 851。 即 使 这 些 组 合 没有 冲突 , 也 不 
过 只 有 表 的 28% 被 真正 散 列 到 。 因 此 , 虽然 很 容易 计算 , 但 是 当 散 列表 具有 合理 大 小 的 时 候 这 
个 函数 还 是 不 合适 的 。 

public statíc int hash( String key, int tableSize ) 


{ 
return ( key.charAt( 0 ) + 27 * key.charAt( 1 ) + 


729 * key.charAt( 2 ) ) 5 tableSize; 





图 5-3 另 一 个 可 能 的 散 列 函 数 一 一 不 是 太 好 


5-4 列 出 了 散 列 函 数 的 第 3 种 尝试 。 这 个 散 列 函数 涉及 关键 字 中 的 所 有 字符 , 并 且 一 般 可 
以 分 布 得 很 好 ( 它 计算 1097 Keyl KeySize — i - 1] .37; ,并 将 结果 限制 在 适当 的 范围 内 )。 程 
序 根据 Homer 法 则 计算 一 个 (37 的 ) 多 项 式 函 数 。 例 如 , 计算 h ko + 37k, + 377; 的 另 一 种 方 
式 是 借助 于 公式 hy = ((R2) * 37 + ki) * 37+ ko HEFT. Homer 法 则 将 其 扩展 到 用 于 n KE 
项 式 。 

这 个 散 列 函 数 利用 到 事实 : 允许 溢出 。 这 可 能 会 引进 负 的 数 , 因此 在 末尾 有 附加 的 测试 。 

图 5-4 所 描述 的 散 列 函 数 就 表 的 分 布 而 言 未 必 是 最 好 的 , 但 确实 具有 极其 简单 的 优点 而 且 束 
度 也 很 快 。 如 果 关 键 字 特 别 长 , 那么 该 散 列 函 数 计算 起 来 将 会 花费 过 多 的 时 间 。 在 这 种 情况 下 
通常 的 经 验 是 不 使 用 所 有 的 字符 。 此 时 关键 字 的 长 度 和 性 质 将 影响 选择 。 例 如 ,关键 字 可 能 是 
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完整 的 街道 地 址 , 散 列 函 数 可 以 包括 街道 地 址 的 几 个 字符 , 也 许 还 有 城市 名 和 邮政 编码 的 几 个 字 
符 。 有 些 程序 设计 人 员 通 过 只 使 用 奇数 位 置 上 的 字符 来 实现 他 们 的 散 列 函 数 , 这 里 有 这 么 一 层 
想法 : 用 计算 散 列 函数 节省 下 的 时 间 来 补偿 由 此 产生 的 对 均匀 地 分 布 的 函数 的 轻微 干扰 。 


kk 

* A hash routine for String objects. 

* @param key the String to hash. 

* @param tableSize the size of the hash table. 

* @return the hash value. 

* 

public static int hash( String key, int tableSize ) 
{ 


] 
2 
3 
4 
5 
6 
7 
8 
9 


int hashVal = 0; 


for( int i = 0; i < key.length( ); i++ ) 
hashVal = 37 * hashVal + key.charAt( i ); 


hashVal %= tableSize; 
if( hashVal < 0 ) 
hashVal += tableSize; 


return hashVal; 





FA 5-4 一 个 好 的 散 列 函数 


剩 下 的 主要 编程 细节 是 解决 冲突 的 消除 问题 。 如 果 当 一 个 元 素 被 插 人 时 与 一 个 已 经 插 人 的 
元 素 散 列 到 相同 的 值 , 那么 就 产生 一 个 冲突 , 这 个 冲突 需要 消除 。 解 决 这 种 冲突 的 方法 有 几 种 ， 
我 们 将 讨论 其 中 最 简单 的 两 种 : 分 离 链 接 法 和 开放 定 址 法 。 


5.3 分 离 链接 法 


解决 冲突 的 第 一 种 方法 通常 叫做 分 离 链接 法 (separate chaining), 其 做 法 是 将 散 列 到 同一 个 值 
的 所 有 元 素 保留 到 一 个 表 中 。 我 们 可 以 使 用 标准 库 表 的 实现 
方法 。 如 果 空 间 很 紧 , 则 更 可 取 的 方法 是 避免 使 用 它们 ( 因 
为 这 些 表 是 双向 链接 的 并 且 浪 费 空间 )。 本 节 我 们 假设 关键 
字 是 前 10 SSE EA BHO BAUR hash (.x) 2 x mod 
10( 表 的 大 小 不 是 素数 , 用 在 这 里 是 为 了 简单 )。 图 5-5 对 此 
做 出 更 清晰 的 解释 。 

为 执行 一 次 查找 , 我 们 使 用 散 列 函数 来 确定 究竟 遍历 哪 
个 链表 。 然 后 我 们 再 在 被 确定 的 链表 中 执行 一 次 查找 。 为 执 
行 insert, 我 们 检查 相应 的 链表 看 看 该 元 素 是 否 已 经 处 在 适 
当 的 位 置 (如 果 允 许 插入 重复 元 , 那么 通常 要 留 出 一 个 额外 5-5 分离 链 接 散 列表 
的 域 , 这 个 域 当 出 现 匹 配 事件 时 增 1)。 如 果 这 个 元 素 是 个 新 
元 素 , 那么 它 将 被 插 人 到 链表 的 前 端 , 这 不 仅 因 为 方便 , 还 因为 常常 发 生 这 样 的 事实 : 新 近 插 入 
的 元 素 最 有 可 能 不 久 又 被 访问 。 | 

实现 分 离 链接 法 所 需要 的 类 架构 如 图 5-6 所 示 。 散 列表 存储 一 个 链表 数组 , 它们 在 构造 方法 
中 被 指定 。 
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public class SeparateChainingHashTable<AnyType> 


SeparateChainingHashTable( ) 

Figure 5.9 */ ) 
SeparateChainingHashTable( int size ) 
Figure 5.9 */ } 


void insert( AnyType x ) 
Figure 5.10 */ } 

void remove( AnyType x ) 
Figure 5.10 */ } 

boolean contains( AnyType x ) 
Figure 5.10 */ ] 

void makeEmpty( ) 

Figure 5.9 */ } 


private static final int OEFAULT TABLE SIZE = 101; 


private List<AnyType> [ ] theLists; 
private int currentSize; 


private void rehash( ) 
( /* Figure 5.22 */ ) 
private int myhash( AnyType x ) 
{ /* Figure 5.7 */ } 


private static int nextPrime( int n ) 
( /* See online code */ ) 

private static boolean isPrime( int n ) 
{ /* See online code */ } 





图 5-6 ”分离 链接 散 列表 的 类 架构 


就 像 二 叉 查 找 树 只 对 那些 是 Comparable 
的 对 象 工作 一 样 , 本 章 中 的 散 列 表 只 对 遵守 确 
定 协 议 的 那些 对 象 工作 。 在 Java 中 这 样 的 对 象 
必须 提供 适当 equals 方法 和 返回 一 个 int 型 
量 的 hashCode 方法 , 此 时 , 散 列 表 把 这 个 int 
型 量 通 过 myHash 转 成 适当 的 数组 下 标 ， 如 
图 5-7 所 示 。 图 5-8 解释 了 Employee 类 ， 可 以 
将 其 存放 在 一 个 散 列 表 中 。 类 Employee 提供 
equals 方法 和 基于 Enployee 名 字 的 hashCode 
Jiik. Employee 类 的 hashCode 通过 使 用 标准 图 5-7 BIRI myHash 方法 
String 类 中 定义 的 hashCode 来 工作 。 这 个 标 
准 类 中 的 hashCode 基本 上 是 图 5-4 中 将 14 行 到 16 行 除 去 后 的 程序 。 

5-9 列 出 构造 方法 和 方法 makeEmpty。 

实现 contains 、insert 和 remove 的 例 程 如 图 5-10 所 示 。 


private int myhash( AnyType x ) 


( 
int hashVal = x.hashCode( ); 


hashVal %= theLists.length; 
if( hashVal < 0 ) 
hashVal += theLists.length; 


return hashVal; 


1 
2 
3 
4 
5 
6 
7 
8 
9 
0 


— 
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public class Employee 


public boolean equals( Object rhs ) 
{ return rhs instanceof Employee && name.equals( ((Employee)rhs).name ); } 


public int hashCode( ) 
{ return name.hashCode( ); } 


private String name; 
private double salary; 
private int seniority; 


// Additional fields and methods 





Bd 5-8 可 以 放 在 一 个 散 列 表 中 的 Employee 类 的 例子 


kk 
* Construct the hash table. 
aj 
public SeparateChainingHashTable( ) 
{ 
this( DEFAULT TABLE SIZE ); 
) 
je 
* Construct the hash table. 
* @param size approximate table size. 
i 
public SeparateChainingHashTable( int size ) 
( 
thelists = new LinkedList[ nextPrime( size ) ]; 
for( int i = 0; i < theLists.length; i++ ) 
theLists[ i ] = new LinkedList«AnyType»( ); 


WO 00-4 Du AW DH = 


/** 

* Make the hash table logically empty. 

"f 

public void makeEmpty( ) 

{ 
for( int i = 0; i < theLists.length; i++ ) 

theLists[ i ].clear( ); 

theSize = 0; 





图 5-9 分 离 链接 散 列 表 的 构造 方法 和 makeEmpty 方法 


在 插入 例 程 中 ,如 果 被 插 人 的 项 已 经 存在 , 那么 我 们 不 执行 任何 操作 ; 否则 , 我 们 将 其 放 人 
链表 中 。 该 元 素 可 以 被 放 到 链表 中 的 任何 位 置 ; 在 我 们 的 情形 下 使 用 add 方法 是 最 方便 的 。 

除 链表 外 , 任何 方案 都 可 以 解决 冲突 现象 ; 一 棵 二 叉 查找 树 或 甚至 另 一 个 散 列表 都 将 胜任 这 
个 工作 , 但 是 , 我 们 期 望 如 果 散 列表 是 大 的 并 且 散 列 函数 是 好 的 , 那么 所 有 的 链表 都 应 该 是 短 
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A, 从 而 任何 复杂 的 尝试 就 都 不 值得 考虑 了 。 


CoN HA UA t9 ho € 


5-10 ”分离 链接 散 列表 的 contains 例 程 、insert 例 程 和 remove 例 程 


我 们 定义 散 列 表 的 装填 因子 (load factor) À 为 散 列表 中 的 元 素 个 数 对 该 表 大 小 的 比 。 在 上 面 
的 例子 中 , 和 = 1.0。 链 表 的 平均 长 度 为 X。 执 行 一 次 查找 所 需要 的 工作 是 计算 散 列 函数 值 所 需要 
的 常数 时 间 加 上 遍历 链表 所 用 的 时 间 。 在 一 次 不 成 功 的 查找 中 , 要 考查 的 节点 数 平均 为 X。 一 次 
成 功 的 查找 则 需要 遍历 大 约 1+ (XM2) 个 链 。 为 了 看 清 这 一 点 , 注意 被 搜索 的 链表 包含 一 个 存储 


p** 
* Find àn item in the hash table. 
* @param x the item to search for, 
* @return true if x is not found. 
* 
/ 
public boolean contains( AnyType x ) 


{ 
List«AnyType» whichList = theLists[ myhash( x ) ]; 
return whichList.contains( x ); 


! 


** 
* Insert into the hash table. If the item is 
* already present, then do nothing. 
* (param x the item to insert. 
* 
public void insert( AnyType x ) 
{ 
List<AnyType> whichList = theLists( myhash( x } ]; 
if( !whichList.contains( x ) ) 
( 
whichList.add( x ); 


// Rehash; see Section 5.5 
if( **currentSize > theLists.length ) 
rehash( ); 


* Remove from the hash table. 
* @param x the item to remove. 
gid 
public void remove( AnyType x ) 
{ 


List<AnyType> whichList = theLists[ myhash( x ).]; 
if( whichList.contains( x ) ) 
{ 


whichList.remove{ x ); 
currentSize--; 
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匹配 的 节点 再 加 上 0 个 或 更 多 其 他 的 节点 。 在 N 个 元 素 的 散 列 表 以 及 M 个 链表 中 “其 他 节点 "的 
期 望 个 数 为 (N 一 1)/M =2-1/M, 它 基 本 上 就 是 和 , 因为 假设 M 是 大 的 。 平 均 看 来 , 一 半 的 “其 
他 ”节点 被 搜索 到 , 再 结合 匹配 节点 , 我 们 得 到 1 + XX2 个 节点 的 平均 查找 代价 。 这 个 分 析 指 出 ， 
散 列表 的 大 小 实际 上 并 不 重要 , 而 装填 因子 才 是 重要 的 。 分 离 链 接 散 列 法 的 一 般 法 则 是 使 得 表 
的 大 小 与 预料 的 元 素 个 数 大 致 相等 ( 换 句 话说 , 让 X=<*1)。 在 图 5-10 的 程序 中 , 如 果 装 填 因 子 超 
过 1, 那么 我 们 通过 调用 在 26 行 上 的 rehash 函数 扩大 散 列 表 的 大 小 。rehash 将 在 5.5 Tri ie. 
正如 前 面 提 到 的 , 使 表 的 大 小 是 素数 以 保证 一 个 好 的 分 布 , 这 个 想法 很 好 。 


5.4 不 用 链表 的 散 列表 


分 离 链 接 散 列 算法 的 缺点 是 使 用 一 些 链表 。 由 于 给 新 单元 分 配 地 址 需要 时 间 ( 特 别 是 在 其 他 语言 
中 ), 因此 这 就 导致 算法 的 速度 有 些 减 慢 ,同时 算法 实际 上 还 要 求 对 第 二 种 数据 结构 的 实现 。 另 有 一 
种 不 用 链表 解决 冲突 的 方法 是 尝试 另外 一 些 单元 , 直到 找 出 空 的 单元 为 止 。 更 常见 的 是 , 单元 ho(z)， 
hilz), h(x), - PARR RIE, 其 中 h(x)= (hash (x) + f(i))mod TableSize , 且 f(0)=0。 函 数 了 是 
冲突 解决 方法 。 因 为 所 有 的 数据 都 要 置 人 表 内 , 所 以 这 种 解决 方案 所 需要 的 表 要 比分 离 链 接 散 列 的 表 
大 。 一 般 说 来 , 对 于 不 使 用 分 离 链接 的 散 列 表 来 说 , 其 装填 因子 应 该 低 于 和 =0.5。 我 们 把 这 样 的 表 叫 
做 探测 散 列表 (probing hash table)。 现 在 我 们 就 来 考察 三 种 通常 的 冲突 解决 方案 。 
5.4.1 线性 探测 法 

在 线性 探测 法 中 ,函数 f 是 i 的 线性 函数 , 典型 情形 是 f(i) = i。 这 相当 于 相继 探测 逐个 单 
元 (必要 时 可 以 回 绕 ) 以 查找 出 一 个 空 单 元 。 图 5-11 显示 使 用 与 前 面相 同 的 散 列 函 数 将 各 个 关键 
F189, 18, 49, 58, 69| 插 入 到 一 个 散 列表 中 的 情况 , 而 此 时 的 冲突 解决 方法 就 是 f(i)= io 
Empty Table After 89 After 18 After 49 After 58 After 69 

49 49 49 


58 58 
69 


owen Q^ ^ A WN —- O 


18 18 18 18 
89 89 89 89 89 


图 5-11 每 次 插 人 后 使 用 线性 探测 得 到 的 散 列表 

第 一 个 冲突 在 插入 关键 字 49 时 产生 ; 它 被 放 和 人 下 一 个 空闲 地 址 , 即 地 址 0, 该 地 址 是 开放 
的 。 关 键 字 58 先 与 18 冲突 , 再 与 89 冲突 , 然后 又 和 49 冲突 , 试 选 三 次 之 后 才 找 到 一 个 空 单 元 。 
对 69 的 冲突 用 类 似 的 方法 处 理 。 只 要 表 足 够 大 , 总 能 够 找到 一 个 自由 单元 , 但 是 如 此 花费 的 时 
间 是 相当 多 的 。 更 糟 的 是 ,即使 表 相 对 较 空 , 这 样 占据 的 单元 也 会 开始 形成 一 些 区 块 , 其 结果 称 
为 一 次 聚集 (primary clustering) , 就 是 说 , 散 列 到 区 块 中 的 任何 关键 字 都 需要 多 次 试 选单 元 才能 够 
解决 冲突 , 然后 该 关键 字 被 添加 到 相应 的 区 块 中 。 

虽然 我 们 不 在 这 里 进行 具体 计算 , 但 是 可 以 证 明 , 使 用 线性 探测 的 预期 探测 次 数 对 于 插入 和 


不 成 功 的 查找 来 说 大 约 为 方 (1+ 1/0 - X)2)， 而 对 于 成 功 的 查找 来 说 则 是 方 (L+ 1/0 7 X))。 相 


关 的 一 些 计算 多 少 有 些 复 杂 。 从 程序 中 容易 看 出 , 插 人 和 不 成 功 查找 需要 相同 次 数 的 探测 。 略 
加 思考 不 难得 出 , 成 功 查找 应 该 比 不 成 功 查找 平均 花费 较 少 的 时 间 。 
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如 果 聚 集 不 算是 问题 , 那么 对 应 的 公式 就 不 难得 到 。 我 们 假设 有 一 个 很 大 的 散 列 表 , 并 设 每 
次 探测 都 与 前 面 的 探测 无 关 。 对 于 随机 冲突 解决 方法 而 言 , 这 些 假设 是 成 立 的 , 并 且 当 入 不 是 非 
常 接近 于 1 时 也 是 合理 的 。 首 先 , 我 们 导出 在 一 次 不 成 功 查找 中 探测 的 期 望 次 数 ,而 这 正 是 直到 
我 们 找到 一 个 空 单元 的 探测 的 期 望 次 数 。 由 于 空 单元 所 占 的 份额 为 1 一, 因此 我 们 预计 要 探测 
的 单元 数 是 1/(1 - 和) 。 一 次 成 功 查找 的 探测 次 数 等 于 该 特定 元 素 插 和 人 时 所 需要 的 探测 次 数 。 当 
一 个 元 素 被 插 人 时 , 可 以 看 成 进行 一 次 不 成 功 查找 的 结果 。 因 此 , 我 们 可 以 使 用 一 次 不 成 功 查找 
的 开销 来 计算 一 次 成 功 查找 的 平均 开销 。 

需要 指出 的 是 , 入 从 0 到 当前 值 之 间 变 化 , 因此 早期 的 插入 操作 开销 较 少 ,从 而 将 平均 开销 
拉 低 。 例 如 , 在 上 面 的 图 5-11 中 , A=0.5, 访问 18 的 开销 是 在 18 被 插入 时 确定 的 , 此 时 入 =0.2。 
由 于 18 是 插 和 人 到 一 个 相对 空 的 散 列 表 中 , 因此 对 它 的 访问 应 该 比 新 近 插 人 的 元 素 ( 比 如 69) 的 访 
问 更 容易 。 我 们 可 以 通过 使 用 积分 计算 插 人 时 间 平 均值 的 方法 来 估计 平均 值 ， 如 此 得 到 : 


dd". d. s br b 
I) = 3], 1— 5:45 = 401-3 


这 些 公 式 显然 优 于 线性 探测 那些 相应 的 公式 。 聚 集 不 仅 是 理论 上 的 问题 ,而 且 实际 上 也 发 生 在 
具体 的 实现 中 。 图 5-12 把 线性 探测 的 性 能 ( 虚 曲线 ) 与 从 更 随机 的 冲突 解决 方法 中 期 望 的 性 能 作 
了 比较 。 成 功 的 查找 用 S 标记 , 不 成 功 查找 和 插入 分 别 用 U 和 了 标记 。 





.10 .15 .20 .25.30 ,35 40 45 ,50 ,55 .60 .65 .70 .75 .80 .85 .90 .95 


图 S-12 ”对 线性 探测 (虚线 ) 和 随机 方法 的 装填 因子 画 出 的 探测 次 数 
(S ARDER., U 为 不 成 功 查 找 ，! 为 插入 ) 


如 果 和 =0.75, 那么 上 面 的 公式 指出 在 线性 探测 中 一 次 插入 预计 8.5 次 探测 。 如 果 入 =0.9， 
则 预计 为 50 次 探测 , 这 就 不 切实 际 了 。 假 如 聚集 不 是 问题 , 那么 这 可 与 相应 的 装填 因子 的 4 次 
和 10 次 探测 相 比 。 从 这 些 公式 看 到 , 如 果 表 可 以 有 多 于 一 半 被 填 满 的 话 , 那么 线性 探测 就 不 是 
个 好 办 法 。 然 而 , 如 果 和 =0.5, 那么 插入 操作 平均 只 需要 2.5 次 探测 , 并 且 对 于 成 功 的 查找 平均 
只 需要 1.5 次 探测 。 


5.4.2 平方 探测 法 
平方 探测 是 消除 线性 探测 中 一 次 聚集 问题 的 冲突 解决 方法 。 平 方 探测 就 是 冲突 函数 为 二 次 
的 探测 方法 。 流 行 的 选择 是 f(i)= S. A 5-13 显示 与 前 面 线 性 探测 例子 相同 的 输入 使 用 该 冲突 


函数 所 得 到 的 散 列 表 。 

当 49 与 89 冲突 时 , 其 下 一 个 位 置 为 下 一 个 单元 , 该 单元 是 空 的 , 因此 49 就 被 放 在 那里 。 此 
后 , 58 在 位 置 8 处 产生 冲突 , 其 后 相 邻 的 单元 经 探测 得 知 发 生 了 另外 的 冲突 。 下 一 个 探测 的 单 
元 在 距 位 置 8 2g 2? — 4 eA, 这 个 单元 是 个 空 单元 。 因 此 , KEF 58 就 放 在 单元 2 处 。 对 于 关键 
字 69, 处 理 的 过 程 也 一 样 。 

对 于 线性 探测 ， 让 散 列 表 几 乎 填 满 元 素 并 不 是 个 好 主意 , 因为 此 时 表 的 性 能 会 降低 。 对 于 平 
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方 探测 情况 其 至 更 糟 : 一 旦 表 被 填充 超过 一 半 ， 当 表 的 大 小 不 是 素数 时 其 至 在 表 被 填充 一 半 之 
Bü. 就 不 能 保证 一 次 找到 空 的 单元 了 。 这 是 因为 最 多 有 表 的 一 半 可 以 用 作 和 解决 冲突 的 备 选 位 置 。 


Empty Table After 89 After 18 After 49 After 58 After 69 


0 49 49 49 
1 
2 58 58 
3 69 
4 
5 
6 
7 
8 18 18 18 18 
9 89 89 89 89 89 


图 5-13 在 每 次 插入 后 , 利用 平方 探测 得 到 的 散 列表 


我 们 现在 就 来 证 明 , 如 果 表 有 一 半 是 空 的 , 并 且 表 的 大 小 是 素数 , 那么 我 们 保证 总 能 够 插入 
—^ NICH o 

定理 5.1 如 果 使 用 平方 探测 , 且 表 的 大 小 是 素数 , 那么 当 表 至 少 有 一 半 是 空 的 时 候 , 总 能 
够 插入 一 个 新 的 元 素 。 

VERA : 

令 表 的 大 小 TableSise 是 一 个 大 于 3 的 ( 奇 ) 素 数 。 我 们 证 明 , 前 | TableSiaze /2 | 个 备 选 位 置 ( 包 
括 初始 位 置 ho Cr) ZAHN. A(x) + (mod TableSize ) h(x) + j^ (mod TableSize ) 是 这 些 位 置 中 
的 两 个 , 其 中 oxi, jl TableSiaze /2 |]。 为 推出 矛盾 , 假设 这 两 个 位 置 相同 , 但 i26, 于 是 


h(x)*zZ-h(x)*j? (mod TableSize ) 

六 三 天 (mod TableSize ) 

i-j- (mod TableSize ) 
(i-j)(it+z) =0 (mod TableSize ) 


由 于 TableSize 是 素数 , 因此 , 要 么 (i - 5) FF 0(mod TableSize) #4 (i + 7) SET 0(mod Table- 
Size), BR i 和 j 是 互 异 的 , 那么 第 一 个 选择 是 不 可 能 的 。 但 Os, jm TableSiaze/2], 因此 第 
二 个 选择 也 是 不 可 能 的 。 从 而 , BU TableSiaze/2 1 个 备 选 位 置 是 互 异 的 。 如 果 最 多 有 |L TableSi- 
aze/2 | 个 位 置 被 使 用 , 那么 空 单元 总 能 够 找到 。 ui 

即使 表 被 填充 的 位 置 仅仅 比 一 半 多 一 个 , 那么 插入 都 有 可 能 失败 (虽然 这 是 非常 难于 见 到 
的 )。 因 此 , 把 它 记 住 很 重要 。 另 外 , 表 的 大 小 是 素数 也 非常 重要 8。 如 果 表 的 大 小 不 是 素数 , 则 
备 选 单元 的 个 数 可 能 会 锐 减 。 例 如 , 若 表 的 大 小 是 16, 那么 备 选单 元 只 能 在 距 散 列 值 1, 4 或 9 
远 处 。 

在 探测 散 列表 中 标准 的 删除 操作 不 能 执行 ， 因 为 相应 的 单元 可 能 已 经 引起 过 冲突 , 元 素 绕 过 
它 存 在 了 别处 。 例 如 ， 如果 我 们 删除 89, 那么 实际 上 所 有 剩 下 的 contains 操作 都 将 失败 。 因 此 ， 
探测 散 列 表 需 要 懒惰 删除 , 不 过 在 这 种 情况 下 实际 上 并 不 存在 所 意味 的 人 懒惰。 

实现 探测 散 列 表 所 需要 的 类 架构 如 图 5-14 中 所 示 。 这 里 , 我 们 不 用 链表 数组 , 而 是 使 用 散 列 


O 如 果 表 的 大 小 是 形 如 4k+ 3 的 素数 , 且 使 用 的 平方 冲突 解决 方法 为 F(i) = t, 那么 整个 表 均 可 被 探测 到 。 其 
代价 则 是 例 程 要 略微 复杂 。 
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表 项 单元 的 数组 , 它们 也 在 图 5-14 中 表 出 。HashEntry 引用 数组 的 每 一 项 是 下 列 3 种 情形 之 一 : 


public class QuadraticProbingHashTable«AnyType» 


{ 
public QuadraticProbingHashTable( ) 
( /* Figure 5.15 */ ) 
public QuadraticProbingHashTable( int size ) 
Figure 5.15 */ ) 
void makeEmpty( ) 
Figure 5.15 */ ) 


boolean contains( AnyType x ) 
Figure 5.16 */ } 

void insert( AnyType x ) 
Figure 5.17 */ ) 

void remove( AnyType x ) 
Figure 5.17 */ ) 


private static class HashEntry<AnyType> 


public AnyType element; // the element 
public boolean isActive; // false if marked deleted 


public HashEntry( AnyType e ) 
( this( e, true ); ) 


public HashEntry( AnyType e, boolean i ) 
[ element = e; isActive = i; ) 


) 


private static final int DEFAULT TABLE SIZE = 11; 


private HashEntry<AnyType> [ ] array; // The array of elements 
private int currentSize; // The number of occupied cells 


private void allocateArray( int arraySize ) 
{ /* Figure 5.15 */ } 

private boolean isActive( int currentPos ) 
{ /* Figure 5.16 */ } 

private int findPos( AnyType x ) 
( /* Figure 5.16 */ } 

private void rehash( ) 
{ /* Figure 5.22 */ } 


private int myhash( AnyType x ) 
( /* See online code */ } 
private static int nextPrime( int n ) 
{ /* See online code */ } 
private static boolean isPrime( int n ) 


{ /* See online code */ } 





图 5-14 ”使 用 探测 方法 的 散 列 表 的 类 架构 , ARER HashEntry 类 
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1. null, 

2. dE null, 且 该 项 是 活动 的 (isActive 为 true). 

3. 非 null, 且 该 项 标记 被 删除 (isActive 为 false)。 

该 表 ( 图 5-15) 的 构造 由 分 配 空间 然后 设置 每 个 HashEntry 引用 为 nu11 组 成 。 


j= 
* Construct the hash table. 
*J 
public QuadraticProbingHashTable( ) 
( 
this( DEFAULT TABLE SIZE ); 


«oO 00 - CV CA A WY He 


/[** 
* Construct the hash table. 
* @param size the approximate initial size. 
*/ 
public QuadraticProbingHashTable( int size ) 
{ i 
allocateArray( size ); 
makeEmpty( ); 


ye 
* Make the hash table logically empty. 
*/ 
public void makeEmpty( ) 
{ 
currentSize = 0; 
for( int i = 0; i « array.length; i++ ) 
array[ i ] = null; 


/** 

* [nternal method to allocate array. 

* @param arraySize the size of the array. 
"7 
private void allocateArray( int arraySize ) 
{ 


array = new HashEntry[ arraySize ]; 





} 
图 5-15 初始 化 散 列 表 的 例 程 


在 图 5-16 中 所 示 的 contains(x) 调 用 私有 方法 isActive 和 findPos。 这 里 的 private 方法 
findPos 实施 对 冲突 的 解决 。 我 们 肯定 在 insert 例 程 中 散 列 表 至 少 为 该 表 中 元 素 个 数 的 两 倍 大 ， 
这 样 平方 探测 解决 方案 总 可 以 实现 。 在 图 5-16 的 实现 中 , 标记 为 删除 的 那些 元 素 被 认为 还 在 表 
内 。 这 可 能 引起 一 些 问题 , 因为 该 表 可 能 提前 过 满 。 我 们 现在 就 来 讨论 它 。 
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** 

* Find an item in the hash table. 

* @param x the item to search for. 
* @return the matching item. 

a 
public boolean contains( AnyType x ) 
{ 


Co™m A UW - WH DN 


int currentPos = findPos( x ); 
return isActive( currentPos ); 


} 
died 


* Method that performs quadratic probing resolution. 
* @param x the item to search for. 
* @return the position where the search terminates. 
| 
private int findPos{ AnyType x ) 
{ 
int offset = 1; 
int currentPos = myhash( x ); 


while( array[ currentPos ] != null && 
larray[ currentPos ].element.equals( x ) ) 
{ 
currentPos += offset; // Compute ith probe 
offset += 2; 
if( currentPos >= array.length ) 
currentPos -- array.length; 


) 


return currentPos; 


f** 

* Return true if currentPos exists and is active. 

* (param currentPos the result of a call to findPos. 
* @return true if currentPos is active. 

" 
private boolean isActive( int currentPos ) 


{ 


return array[ currentPos ] != null && array[ currentPos ].isActive; 





图 5-16 使 用 平方 探测 进行 散 列 的 contains 例 程 ( 及 两 个 private 型 支撑 方法 ) 


第 25 行 到 第 28 行为 进行 平方 探测 的 快速 方法 。 由 平方 解决 函数 的 定义 可 知 ，F(i) = fG- 
1)*2i-1, 因此 , 下 一 个 要 探测 的 单元 离 上 一 个 被 探测 过 的 单元 有 一 段 距 离 , 而 这 个 距离 在 连 
续 探 测 中 增 2。 如 果 新 的 定位 越过 数组 , 那么 可 以 通过 减 去 TableSize 把 它 拉 回 到 数组 范围 内 。 
这 比 通常 的 方法 要 快 , 因为 它 避 免 了 看 似 需 要 的 乘法 和 除法 。 注 意 一 条 重要 的 警告 : 第 22 行 和 
第 23 行 的 测试 顺序 很 重要 , WAKE! 
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最 后 的 例 程 是 插入 。 正 如 分 离 链接 散 列 方法 那样 , 若 x 已 经 存在 , 则 我 们 就 什么 也 不 做 。 有 
些 工 作 也 只 是 简单 的 修正 。 否 则 , 我 们 就 把 要 插入 的 元 素 放 在 findPos 例 程 指出 的 地 方 。 程 序 在 
图 5-17. 中 显示 。 如 果 装 填 因 子 超过 0.5, 则 表 是 满 的 , 需要 将 该 散 列表 放大 。 这 称 为 再 散 列 (re- 
hashing) , 我 们 将 在 5.5 节 进 行 讨论 。 


yx 
* Insert into the hash table. If the item is 
* already present, do nothing. 
* @param x the item to insert. 
E i 
public void insert( AnyType x ) 
( 


Con DU A LS DH = 


// Insert x as active 
int currentPos = findPos( x ); 
if( isActive( currentPos ) ) 
return; 


array[ currentPos ] = new HashEntry<AnyType>( x, true ); 


// Rehash; see Section 5.5 


if( ++currentSize > array.length / 2 ) 
rehash( ); 


pt 
* Remove from the hash table. 
* @param x the item to remove. 
* 
/ 

public void remove( AnyType x ) 
{ 

int currentPos = findPos( x ); 

if( isActive( currentPos ) ) 

array[ currentPos ].isActive = false; 





5-17 ”使 用 平方 探测 散 列 表 的 insert 例 程 


虽然 平方 探测 排除 了 一 次 聚集 , 但 是 散 列 到 同一 位 置 上 的 那些 元 素 将 探测 相同 的 备 选 单元 。 
这 叫做 二 次 聚集 (secondary clustering)。 二 次 聚集 是 理论 上 的 一 个 小 缺憾 。 模 拟 结果 指出 , 对 每 次 
ER, 它 一 般 要 引起 另外 的 少 于 一 半 的 探测 。 下 面 的 技术 将 会 排除 这 个 缺憾 , 不 过 这 要 付出 计算 
一 个 附加 的 散 列 卫 数 的 代价 。 
5.4.3 RMAF 

我 们 将 要 考察 的 最 后 一 个 冲突 解决 方法 是 双 散 列 (double hashing)。 对 于 双 散 列 , 一 种 流行 的 
选择 是 (i)i hash2(z)。 这 个 公式 是 说 , 我 们 将 第 二 个 散 列 函数 应 用 到 z 并 在 距离 hash,( 工 )， 
2heshaz(z)，… 等 处 探测 。Ahashz(z) 选 择 得 不 好 将 会 是 灾难 性 的 。 例 如 , IE 99 插入 到 前 面 例 
子 中 的 输入 中 去 , 则 通常 的 选择 hash;(x)- x mod 9 将 不 起 作用 。 因 此 ， 函数 一 定 不 要 算得 0 
值 。 另外, 保证 所 有 的 单元 都 能 被 探测 到 也 是 很 重要 的 (但 在 下 面 的 例子 中 这 是 不 可 能 的 , 因为 
表 的 大 小 不 是 素数 )。 诸 如 hash,(.+)= R — (x mod R) 这 样 的 函数 将 起 到 良好 的 作用 , 其 中 R 为 
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小 于 TableSize 的 素数 。 如 果 我 们 选择 R=7, WA 5-18 显示 插 人 与 前 面相 同 的 一 些 关 键 字 的 
结果 。 


SEMEL U c a—w 
Empty Table After 89 After 18 After 49 After 58 After 69 














0 69 
l 
2 
3 58 58 
4 
3 
6 49 49 49 
7 
8 18 18 18 18 
9 89 89 89 89 89 


图 5-18 使 用 双 散 列 方法 在 每 次 插 人 后 的 散 列表 


第 一 个 冲突 发 生 在 49 BETA ROBT. hash,(49)=7-0=7, 故 49 被 插入 到 位 置 6。hash， 
(58)=7-2=5, 于 是 58 被 插入 到 位 置 3。 最 后 , 69 产生 冲突 , 从 而 被 插入 到 距离 为 hash,(69) = 
7-6=1 远 的 地 方 。 如 果 我 们 试图 将 60 插入 到 位 置 0 处 , 那么 就 会 产生 一 个 冲突 。 由 于 hash， 
(60)=7-4=3, 因此 我 们 尝试 位 置 3、6、9, 然后 是 2, 直到 找 出 一 个 空 的 单元 。 一 般 是 有 可 能 发 
现 某 个 坏 情 形 的 , 不 过 这 里 没有 太 多 这 样 的 情形 。 

前 面 已 经 提 到 ,上 面 的 散 列 表 实例 的 大 小 不 是 素数 。 我 们 这 么 做 是 为 了 计算 散 列 函数 时 方 
便 , 但 是 , 有 必要 了 解 在 使 用 双 散 列 时 为 什么 保证 表 的 大 小 为 素数 是 很 重要 的 。 如 果 想 要 把 23 
插入 到 表 中 , 那么 它 就 会 与 58 RAM, WF hash,(23) =7-2=5, 且 该 表 大 小 是 10, 因此 我 
们 实际 上 只 有 一 个 备 选 位 置 , 而 这 个 位 置 已 经 被 使 用 了 。 因 此 , 如 果 表 的 大 小 不 是 素数 , BAB 
选单 元 就 有 可 能 提前 用 完 。 然 而 , 如果 双 散 列 正确 实现 , 则 模拟 表明 , 预期 的 探测 次 数 几 乎 和 随 
机 冲突 解决 方法 的 情形 相同 。 这 使 得 双 散 列 理论 上 很 有 吸引 力 。 不 过 , 平方 探测 不 需要 使 用 第 
二 个 散 列 函数 , 从 而 在 实践 中 使 用 可 能 更 简单 并 且 更 快 ,特别 对 于 像 串 这 样 的 关键 字 , 它们 的 散 
列 函 数 计算 起 来 相当 耗 时 。 


5.5 BB 


对 于 使 用 平方 探测 的 开放 定 址 散 列 法 ,如果 散 列表 填 得 太 满 , 那么 操作 的 运行 时 间 将 开始 消 
HIK, 且 插 入 操作 可 能 失败 。 这 可 能 发 生 在 有 太 多 的 移动 和 插入 混合 的 场合 。 此 时 , 一 种 解决 
方法 是 建立 另外 一 个 大 约 两 倍 大 的 表 ( 而 且 使 用 一 个 相关 的 新 散 列 函数 ), 扫描 整个 原始 散 列表 ， 
计算 每 个 (未 删除 的 ) 元 素 的 新 散 列 值 并 将 其 插 人 到 新 表 中 。 

例如 , 设 将 元 素 13、15、24 和 6 插入 到 大 小 为 7 的 线性 探测 散 列 表 中 。 散 列 函 数 是 h(x) = 
r mod 7。 设 使 用 线性 探测 方法 解决 冲突 问题 。 插 入 结果 得 到 的 散 列 表 如 图 5-19 所 示 。 

如 果 将 23 ARP, 那么 图 5-20 中 插入 后 的 表 将 有 超过 70% 的 单元 是 满 的 。 因 为 散 列 表 太 
满 , 所 以 我 们 建立 一 个 新 的 表 。 该 表 大 小 所 以 为 17, 是 因为 17 是 原 表 大 小 两 倍 后 的 第 一 个 素数 。 
新 的 散 列 函数 为 h(x) 二 x mod 17。 扫 描 原 来 的 表 , 并 将 元 素 6、15、23、24 和 13 插 入 到 新 表 中 。 
最 后 得 到 的 表 见 图 5-21。 


+ 
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图 5-19 ”使 用 线性 探测 插入 13. 15, 6, 24 MBI 








Oo Un o ow N 一 C 


图 5-20 ”使 用 线性 探测 插入 23 后 的 散 列 表 图 5-21 在 再 散 列 之 后 的 线性 探测 散 列 表 


整个 操作 就 叫做 再 散 列 (rehashing)。 显 然 这 是 一 种 开销 非常 大 的 操作 ; 其 运行 时 间 为 
O(N), 因为 有 N 个 元 素 要 再 散 列 而 表 的 大 小 约 为 2N, 不 过 , 由 于 不 是 经 常 发 生 , 因此 实际 效 
果 根 本 没有 这 么 差 。 特 别 是 在 最 后 的 再 散 列 之 前 必然 已 经 存在 N72 次 insert, 因此 添加 到 每 个 
插 人 上 的 花费 基本 上 是 一 个 常数 开销 。 如 果 这 种 数据 结构 是 程序 的 一 部 分 , 那么 其 影响 是 不 明 
显 的 。 另 一 方面 , 如果 再 散 列 作为 交互 系统 的 一 部 分 运行 , 那么 其 插入 引起 再 散 列 的 不 幸 用 户 将 
会 感到 速度 减 慢 。 

再 散 列 可 以 用 平方 探测 以 多 种 方法 实现 。 一 种 做 法 是 只 要 表 满 到 一 半 就 再 散 列 。 另 一 种 极 
端的 方法 是 只 有 当 捅 人 失败 时 才 再 散 列 。 第 三 种 方法 即 途 中 (middle-of-the-road) 策 略 : 当 散 列表 
到 达 某 一 个 装填 因子 时 进行 再 散 列 。 由 于 随 着 装填 因子 的 增长 散 列 表 的 性 能 确实 下 降 , 因此 ,以 
好 的 截止 手段 实现 的 第 三 种 策略 , 可 能 是 最 好 的 策略 。 

对 于 分 离 链 接 散 列表 其 再 散 列 是 类 似 的 。 图 5-22 显示 再 散 列 实现 起 来 是 简单 的 , 并 且 还 对 
分 离 链 接 再 散 列 提供 一 种 实现 方法 。 


** 


* Rehashing for quadratic probing hash table. 
* 


private void rehash( ) 


HashEntry«AnyType» [ ] oldArray = array; 


图 5-22. 对 分 离 链接 散 列 表 和 探测 散 列表 的 再 散 列 





O 这 就 是 为 什么 新 表 要 做 成 老 表 两 倍 大 的 原因 。 
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// Create a new double-sized, empty table 
allocateArray( nextPrime( 2 * oldArray.length ) à: 
currentSize = 0; 


// Copy table over 
for( int i = 0; i < oldArray.length; i++ ) 
if( oldArray[ i ] != null && oldArray[ i ].isActive ) 
insert( oldArray[ i ].element ); 


} 

f[** 

* Rehashing for separate chaining hash table. 
*/ ' 

private void rehash( ) 


{ 
List<AnyType> [ ] oldLists = theLists; 


// Create new double-sized, empty table 
theLists = new List[ nextPrime( 2 * theLists.length ) ]; 
for( int j = 0; j < theLists. length; j++ ) 

theLists[ j ] = new LinkedList<AnyType>( ); 


// Copy table over 
currentSize = 0; 
for( int i = 0; i « oldLists.length; i++ ) 
for( AnyType item : oldLists[ i ] ) 
insert( item ); 





5-22 (fX) 


5.6 标准 库 中 的 散 列表 


标准 库 包 括 Set 和 Map 的 散 列表 的 实现 ， 即 HashSet 类 和 HashMap 类 。HashSet 中 的 项 (或 
HashSet 中 的 关键 字 ) 必 须 提 供 equals 方法 和 hashCode 方法 ， 如 较 早 我 们 在 节 5.3 所 描述 的 那 
FÉ. HashSet 和 HashMap 通常 是 用 分 离 链接 散 列 实现 的 。 

如 果 这 些 表 项 是 否 可 以 依 有 序 方式 查看 这 一 点 并 不 重要 , 那么 这 些 类 可 以 使 用 。 例 如 , 在 
4.8 节 的 单词 变换 例子 中 , 存在 三 种 映射 : 

l. 其 中 关键 字 为 单词 长 度 (word length) ， 而 关键 字 的 值 是 长 为 该 单词 长 度 的 所 有 单词 的 
集合 。 

2. 关键 字 是 一 个 代表 (representative) ， 而 关键 字 的 值 是 具有 该 代表 的 所 有 单词 的 集合 。 

3. 关键 字 是 一 个 单词 ( word)， 而 关键 字 的 值 是 与 该 单词 只 有 一 个 字母 不 同 的 所 有 单词 的 

pa 

因为 单词 长 度 被 处 理 的 顺序 并 不 重要 , 所 以 第 1 个 映射 可 以 是 HashMap。 而 由 于 第 2 个 映射 
建立 以 后 甚至 不 需要 代表 , 因此 第 2 个 映射 也 可 以 是 HashMap。 第 3 个 映射 还 可 以 是 HashMap, BR 
非 我 们 想 要 printHighChangeables 依 字母 顺序 列 出 单词 的 子 集 ( 这 些 单词 可 以 被 变换 成 许多 其 他 
单词 ) 。 
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HashMap 的 性 能 常常 优 于 TreeMap 的 性 能 , 不 过 不 按 这 两 种 方式 编写 代码 很 难 有 把 握 肯 定 。 
因此 , 在 HashMap 或 TreeMap 可 以 接受 的 情况 下 , 更 可 取 的 方法 是 : 使 用 接口 类 型 Map 进行 变量 的 
声明 , 然后 , 将 TreeMap 的 实例 变 成 HashMap 的 实例 并 进行 记 时 测试 。 

在 Java 中 , 能 够 被 合理 地 插 人 到 一 个 HashSet 中 去 或 是 所 谓 关键 字 被 插 人 到 HashMap 中 去 的 
那些 库 类 型 已 经 被 定义 了 equals 和 hashCode 方法 。 特 别 是 String 类 中 有 一 个 hashCode 方法 ， 
它 基 本 上 就 是 图 5-4 中 除 掉 第 14 行 到 第 16 行 并 将 第 37 行 用 第 31 行 代替 后 的 程序 。 因 为 散 列 表 
操作 中 费时 多 的 部 分 就 是 计算 hashCode 方法 , 所 以 在 String 类 中 的 hashCode 方 法 包含 一 个 重要 
的 优化 : 每 个 String 对 象 内 部 都 存储 它 的 hashCode 值 。 该 值 初始 为 0, 但 车 hashCode 被 调用 ， 
那么 这 个 值 就 被 记 住 。 因 此 ,如果 hashCode 对 同一 个 String 对 象 被 第 2 次 计算 , 我 们 则 可 以 避 
免 昂 贵 的 重新 计算 。 这 个 技巧 叫做 闪存 散 列 代码 (caching the hash code), 并 且 表 示 另 一 种 经 典 的 
时 空 交换 。 图 5-23 显示 闪存 散 列 代码 的 String 类 的 一 种 实现 。 


public final class String 


public int hashCode( ) 
( 


if( hash != 0) 
return hash; 


for( int i = 0; i « length( ); i++ ) 
hash = hash * 31 + (int) charAt( i ); 
return hash; 


private int hash = 0; 





图 5-23 String 类 hashCode 摘录 


闪存 散 列 代码 之 所 以 有 效 ， 只 是 因为 Sting 类 是 不 可 改变 的 : 要 是 String 允许 变化 , MAE 
就 会 使 hashCode 无 效 ， 而 hashCode 就 只 能 重 置 回 0。 虽然 两 个 具有 相同 状态 的 String 对 象 的 
hashCode 必须 独立 计算 , 但 是 , 存在 许多 情况 使 同一 个 String 对 象 的 散 列 代码 总 是 被 查询 。 闪 
存 散 列 代码 有 用 的 一 种 情况 是 在 再 散 列 期 间 发 生 , 因为 在 再 散 列 中 所 涉及 到 的 所 有 String 对 象 
的 散 列 代码 都 已 经 闪存 过 。 另 一 方面 , 闪存 散 列 代码 对 于 单词 变换 例子 中 的 代表 映射 (representa- 
tive map) 是 无 用 的 。 每 个 代表 都 是 通过 从 一 个 更 大 的 String 中 删除 一 个 字母 所 计算 出 的 一 个 不 
同 的 String, 因此 每 一 个 String 只 能 让 它 的 散 列 代码 单独 计算 。 然 而 , 在 第 3 个 映射 中 , 闪存 散 
列 代 码 没 有 什么 用 处 , 因为 那些 关键 字 都 只 是 些 string, 它们 被 存放 在 String 的 原始 数组 中 。 


5.7 可 扩散 列 


本 章 最 后 的 论题 处 理 数 据 量 太 大 以 至 于 装 不 进 主 存 的 情况 。 正 如 我 们 在 第 4 章 看 到 的 , 此 
时 主要 的 考虑 是 检索 数据 所 需 的 磁盘 存 取 次 数 。 

与 前 面 一 样 , 我 们 假设 在 任 一 时 刻 都 有 N 个 记录 要 存储 ; N 的 值 随时 间 而 变化 。 此 外 , 最 
多 可 把 M 个 记录 放 人 一 个 磁盘 区 块 。 本 节 将 设 M = 4。 

如 果 使 用 探测 散 列 或 分 离 链 接 散 列 , 那么 主要 的 问题 在 于 , 在 一 次 查找 操作 期 间 冲 突 可 能 引 
起 多 个 区 块 被 检察 , 甚至 对 于 理想 分 布 的 散 列表 也 在 所 难免 。 不 仅 如 此 ， 当 散 列 表 变 得 过 满 的 时 
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候 , 必须 执行 代价 巨大 的 再 散 列 这 一 步 , 它 需要 O(N) 次 磁盘 访问 。 

一 种 聪明 的 选择 叫做 可 扩散 列 (extendible hashing), 它 使 得 用 两 次 磁盘 访问 执行 一 次 查找 。 
插入 操作 也 需要 很 少 的 磁盘 访问 。 

回忆 第 4 章 , B 树 具有 深度 Ologun N)。 随 着 M 的 增长 , B 树 的 深度 降低 。 理 论 上 我 们 可 
以 选择 M 非常 大 , 使 得 B 树 的 深度 为 1。 此 时 , 在 第 一 次 以 后 的 任何 查找 都 将 花费 一 次 磁盘 访 
问 , 因为 根 节点 很 可 能 存放 在 主 存 中 。 这 种 方法 的 问题 在 于 分 支 系 数 (branching factor) 太 高 ， 以 
至 于 为 了 确定 数据 在 哪 片 树叶 上 要 进行 大 量 的 处 理工 作 。 如 果 运 行 这 一 步 的 时 间 可 以 减 缩 , AB 
。 么 我 们 就 将 有 一 个 实际 的 方案 。 这 正 是 可 扩散 列 使 用 的 策略 。 

现在 假设 我 们 的 数据 由 几 个 6 比特 整数 组 成 。 图 5-24 显示 这 些 数据 的 可 扩散 列 格式 。 这 里 
的 “ 树 " 的 根 含 有 4 个 链 , 它们 由 这 些 数据 的 前 两 个 比特 确定 。 每 片 树叶 有 直到 M = 4 个 元 素 。 碰 
巧 这 里 每 片 树叶 中 数据 的 前 两 个 比特 都 是 相同 的 ; RAMS AMR. DATEER, RID 
代表 根 所 使 用 的 比特 数 , 有 时 称 其 为 目录 (directory)。 于 是 , 目录 中 的 项 数 为 2?。di AMAL 所 
有 元 素 共 有 的 最 高 位 的 比特 位 数 。di 将 依赖 于 特定 的 树叶 , 因此 d; D. 

设 欲 插 人 关键 字 100 100。 它 将 进入 第 三 片 树叶 , 但 是 第 三 片 树叶 已 经 满 了 , 没有 空间 存放 
它 。 因 此 我 们 将 这 片 树叶 分 裂 成 两 片 树叶 , 它们 由 前 三 个 比特 确定 。 这 需要 将 目录 的 大 小 增加 
到 3。 这 些 变化 由 图 5-25 反映 出 来 。 





5.24 ”可 扩散 列 : 原始 数据 图 5-25 可 扩散 列 : 在 100 100 插入 及 目录 分 裂 后 


注意 , 所 有 未 被 分 裂 的 树叶 现在 各 由 两 个 相 邻 目录 项 所 指 。 因 此 , 虽然 整个 目录 被 重 写 , 但 
是 其 他 树叶 都 没有 被 实际 访问 。 

如 果 现 在 插 人 关键 字 000 000, 那么 第 一 片 树叶 就 要 被 分 裂 , 生成 di =3 的 两 片 树叶 。 由 于 
D=3, 故 在 目录 中 所 作 的 唯一 变化 是 000 和 001 两 个 链 的 更 新 。 见 图 5-26. 





5-26 ”可 扩散 列 : 在 000 000 插入 及 树叶 分 裂 后 


这 个 非常 简单 的 方法 提供 了 对 大 型 数据 库 insert 操作 和 查找 操作 的 快速 存 取 时 间 。 这 里 ， 
还 有 一 些 重要 细节 我 们 尚未 考虑 。 
首先 , 有 可 能 当 一 片 树叶 的 元 素 有 多 于 D+ 1 个 前 导 比 特 位 相同 时 需要 多 次 目录 分 裂 。 例 
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in, 从 原先 的 例子 开始 , D=2, MRA 111010, 111011, 并 在 最 后 插入 111100, 那么 目录 大 
小 必须 增加 到 4 以 区 分 5 个 关键 字 。 这 是 一 个 容易 考虑 到 的 细节 , 但 是 千 万 不 要 忘记 它 。 其 次 ， 
存在 重复 关键 字 (duplicate keys) 的 可 能 性 ; 若 存在 多 于 M 个 重复 关键 字 , 则 该 算法 根本 无 效 。 此 
时 , 需要 作出 某 些 其 他 的 安排 。 

上 述 可 能 性 指出 , 这 些 比特 完全 随机 是 相当 重要 的 , 它 可 以 通过 把 那些 关键 字 散 列 到 合理 的 
长 整数 来 实现 。 

Bua, 我 们 介绍 可 扩散 列 的 某 些 性 能 , 这 些 性 能 是 经 过 非常 困难 的 分 析 后 得 到 的 。 这 些 结果 
基于 合理 的 假设 : 位 模式 (bit pattern) 是 均匀 分 布 的 。 

树叶 的 期 望 个 数 为 (N/M )log, e。 因 此 , 平均 树叶 满 的 程度 为 In 2=0.69. KA B 树 是 一 样 
BY, 其 实 这 完全 不 奇怪 ,因为 对 于 两 种 数据 结构 , 都 是 当 第 (M + 1) 项 被 添加 进来 时 一 些 新 的 节 
点 被 建立 。 

更 令 人 惊奇 的 结果 是 目录 的 期 望 大 小 ( 换 句 话说 即 22) 为 OCN' 7M), WR M 很 小 , AB 
么 目录 可 能 过 大 。 在 这 种 情况 下 , 我 们 可 以 让 树叶 包含 指向 记录 的 链 而 不 是 实际 的 记录 , 这 样 可 
以 增加 M 的 值 。 为 了 维持 更 小 的 目录 , 这 就 对 每 次 查找 操作 增加 了 第 二 次 磁盘 访问 。 如 果 目 录 
太 大 装 不 进 主 存 , 那么 第 二 次 磁盘 访问 无 论 如 何 也 还 是 需要 的 。 


小 结 


散 列 表 可 以 用 来 以 常数 平均 时 间 实 现 insert 和 查找 操作 。 当 使 用 散 列表 时 注意 诸如 装填 因 
子 这 样 的 细节 是 特别 重要 的 , 否则 时 间 界 将 不 再 有 效 。 当 关键 字 不 是 短 的 串 或 整数 时 , 仔细 选择 
散 列 函数 也 是 很 重要 的 。 

对 于 分 离 链 接 散 列 法 , 虽然 装填 因子 不 很 大 时 性 能 并 不 明显 降低 , 但 装填 因子 还 是 应 该 接近 
于 1。 对 于 探测 散 列 算法 , 除非 完全 不 可 避免 ,否则 装填 因子 不 应 该 超过 0.5。 如 果 使 用 线性 探 
测 , 那么 性 能 随 着 装填 因子 接近 于 1 将 急速 下 降 。 再 散 列 运算 可 以 通过 使 散 列表 增长 (和 收缩 ) 来 
实现 , 这 样 将 会 保持 合理 的 装填 因子 。 对 于 空间 紧缺 并 且 不 可 能 声明 巨大 兽 列 表 的 情况 , 这 是 很 
重要 的 。 

二 叉 查 找 树 也 可 以 用 来 实现 insert 和 contains 运算 。 虽 然 平均 时 间 界 为 O(log N), 但 是 二 
叉 查找 树 也 支持 那些 需要 序 从 而 功能 更 强大 的 例 程 。 使 用 散 列 表 不 可 能 找 出 最 小 元 素 。 除 非 准 
确 知道 一 个 字符 串 , 和 否则 散 列 表 也 不 可 能 有 效 地 查找 它 。 二 叉 查 找 树 可 以 迅速 找到 在 一 定 范围 
内 的 所 有 项 ; 散 列 表 是 做 不 到 的 。 此 外 ，O(log N) 这 个 时 间 界 也 不 必 比 O(1) 大 很 多 , 这 特别 是 
因为 使 用 查找 树 不 需要 乘法 和 除法 。 

另 一 方面 , 散 列 的 最 坏 情况 一 般 来 自 于 实现 的 错误 , 而 有 序 的 输入 却 可 能 使 二 又 树 运 行 得 很 
差 。 平 衡 查找 树 实现 的 代价 相当 高 , 因此 ,如 果 不 需 要 序 的 信息 以 及 对 输入 是 否 被 排序 存 有 怀 
BE, 那么 就 应 该 选择 散 列 这 种 数据 结构 。 

散 列 有 着 丰富 的 应 用 。 编 译 器 使 用 散 列表 跟踪 源 代码 中 声明 的 变量 。 这 种 数据 结构 叫做 符 
号 表 (symbol table)。 散 列表 是 这 种 问题 的 理想 应 用 。 标 识 符 一 般 都 不 长 , 因此 其 散 列 函 数 能 够 迅 
速 被 算出 ， 而 按 字母 顺序 排列 变量 通常 没有 必要 。 

散 列 表 对 于 任何 图 论 问题 都 是 有 用 的 , 在 图 论 问题 中 , 节点 都 有 实际 的 名 字 而 不 是 数字 。 这 
里 ， 当 输入 被 读 和 人 的 时 候 ， 顶 点 按照 它们 出 现 的 顺序 从 1 开始 被 指定 一 些 整 数 。 再 有 , 输入 很 可 
能 有 一 组 一 组 依 字母 顺序 排列 的 项 。 例 如 , 顶点 可 以 是 计算 机 。 此 时 ,如果 一 个 特定 的 计算 中 心 
把 它 的 计算 机 列表 , 成 为 ibml, ibm2, ibm3, =, ABA, 若 使 用 查找 树 则 在 效率 方面 可 能 会 有 戏 
剧 性 的 效果 。 
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散 列表 第 三 种 常见 的 用 途 是 在 游戏 程序 中 。 当 程序 搜索 游戏 不 同 的 行 时 , 它 跟踪 通过 计算 
基于 位 置 的 散 列 函数 而 看 到 的 一 些 位 置 (并 把 对 于 该 位 置 的 移动 存储 起 来 )。 如 果 同 样 的 位 置 再 
HR, 程序 通常 通过 移动 的 简单 变换 来 避免 昂贵 的 重复 计算 。 所 有 游戏 程序 的 这 种 一 般 特点 叫 
做 变换 表 (tranposition table)。 

散 列 的 另 一 个 用 途 是 在 线 拼写 检验 程序 。 如 果 错 拼 检测 (与 正确 性 相 比 ) 重 要 , 那么 整个 词 
典 可 以 预先 被 散 列 , 单词 则 可 以 常数 时 间 被 检测 。 散 列表 很 适合 这 项 工作 , 因为 以 字母 顺序 排列 
单词 并 不 重要 ; 而 以 它们 在 文件 中 出 现 的 顺序 显示 出 错误 拼写 当然 是 可 接受 的 。 

我 们 以 第 一 章 的 字迹 问题 来 结束 本 章 。 如 果 使 用 第 一 章 中 描述 的 第 二 个 算法 , 并 且 假 设 最 
大 单词 的 大 小 是 某 个 小 常数 ,那么 读 入 包含 W 个 单词 的 词典 并 把 它 放 和信 散 列表 的 时 间 是 
O( 多 )。 这 个 时 间 很 可 能 由 磁盘 L/O 而 不 是 由 那些 散 列 例 程 起 支配 作用 。 算 法 的 其 余部 分 将 对 
每 一 个 四 元 组 ( 行 , 列 , 方向 , 字符 数 ) 测 试 一 个 单词 是 否 出 现 。 由 于 每 次 查询 时 间 为 O(1), 而 只 
存在 常数 个 数 的 方向 (8) 和 每 个 单词 的 字符 , 因此 这 一 阶段 的 运行 时 间 为 O(R*C)。 总 的 运行 时 
间 是 O(R.C+ W), 它 是 对 原始 O(R*C:W) 的 明显 的 改进 。 我 们 还 可 以 做 进一步 的 优化 , 它 能 
够 降低 实际 的 运行 时 间 ; 这 些 将 在 练习 中 搞 述 。 


练习 
5.1 给 定 输入 14371, 1323, 6 173, 4 199, 4 344, 9 679, 1989) 和 散 列 函数 A(x) = x (mod 
10), 指出 下 列 结果 : 
a. 分 离 链 接 散 列表 。 


b. 使 用 线性 探测 的 散 列表 。 
c. 使 用 平方 探测 的 散 列表 。 
d. 第 二 个 散 列 函数 为 hx(z)=7- z(mod7) 的 散 列表 。 

5.2 ”指出 将 练习 5.1 中 的 散 列表 再 散 列 的 结果 。 

5.3 ”编写 一 个 程序 , 计算 使 用 线性 探测 、 平方 探 测 、 双 散 列 时 的 长 随机 插入 序列 中 所 需 的 冲 
突 次 数 。 

5.4 “在 分 离 链接 散 列 表 中 进行 大 量 的 删除 可 能 造成 表 非 常 稀 朴 ， 浪 费 空间 。 在 这 种 情况 下 ， 
可 以 再 散 列 一 个 表 , 为 原 表 的 一 半 大 。 设 当 存 在 相当 于 表 的 大 小 的 二 倍 的 元 素 的 时 候 ， 
我 们 再 散 列 到 一 个 更 大 的 表 。 该 表 应 该 有 多 么 稀 朴 才能 再 散 列 到 一 个 更 小 的 表 ? 

5.5 “平方 探测 的 isEmpty 例 程 还 没有 写 出 。 你 能 通过 返回 表达 式 currentSize == 0 实现 它 
吗 ? 

5.6 ”在 平方 探测 散 列表 中 , 设 我 们 把 一 个 新 项 插 人 到 搜索 路 径 上 第 一 个 非 活动 的 单元 而 不 是 
把 它 插 人 到 由 findPos 指定 的 位 置 (这 样 , 能 够 重新 声明 一 个 标记 “deleted” 的 单元 , 潜在 
地 节省 了 空间 )。 
a. 使 用 上 述 分 析 重 新 编写 插入 算法 。 通 过 使 用 一 个 附加 变量 让 findPos (RH EIA 

一 个 非 活 动 单元 的 位 置 来 完成 重 写 的 工作 。 

b. 解释 使 得 重 写 的 算法 快 于 原来 算法 的 环境 。 重 写 的 算法 可 能 会 更 慢 吗 ? 

5.7 ”图 5-4 中 的 散 列 函数 在 for 循环 中 对 key. length( ) 进 行 重 复 调 用 。 每 次 进入 循环 以 前 对 
它 进行 一 次 计算 值得 吗 ? | 

5.8 ”各 种 冲突 解决 方案 的 优点 和 缺点 是 什么 ? 

5.9 ”假设 为 了 减轻 二 次 聚集 的 影响 , PEAR f(i) =ir(haw(z)) 作 为 冲突 解决 方案 ， 
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5.10 


"S12 
5.13 


5.14 


RSF 


其 中 hash (x) M 32 比特 散 列 值 (尚未 化 成 适当 的 数组 下 标 ), 而 r(y) = 148 271 y(mod 
(23 — 1))| mod TableSize。(10.4.1 节 描 述 一 种 执行 这 种 计算 而 不 溢出 的 方法 , 不 过 , 在 
这 种 情况 下 溢出 是 不 可 能 的 )。 解 释 为 什么 这 种 方法 趋向 于 避免 二 次 聚集 , 并 将 这 种 方 
法 与 双 散 列 及 平方 探测 进行 比较 。 

再 散 列 要 求 对 散 列 表 中 的 所 有 项 重新 计算 散 列 函 数 。 由 于 计算 散 列 孔 数 开 销 巨 大 , 因此 
设 对 象 提供 它们 自己 的 散 列 成 员 函 数 , 而 每 个 对 象 在 散 列 函数 第 1 次 被 计算 时 都 把 结果 
存 人 一 个 附加 的 数据 成 员 中 。 指 出 这 种 方案 如 何 用 于 图 5-8 中 的 Employee 类 , 并 解释 在 
什么 情况 下 这 些 所 记忆 的 散 列 值 在 每 个 Employee 中 仍然 有 效 。 

编写 一 个 程序 , 实现 下 面 的 方案 , 将 大 小 分 别 为 M ALN 的 两 个 稀疏 多 项 式 (sparse poly- 
nomial) P, 和 P; 相 乘 。 每 个 多 项 式 表 示 成 为 对 象 的 一 个 链表 , 这 些 对 象 由 系数 和 大 组 成 
(练习 3.12)。 我 们 用 P; 的 项 乘 以 P 的 每 一 项 , 总 数 为 MN 次 运算 。 一 种 方法 是 将 这 
些 项 排序 并 合并 同类 项 , 但 是 , 这 需要 排序 MN 个 记录 , 代价 可 能 很 高 , 特别 是 在 小 内 
存 环境 下 。 另 一 种 方案 , 我 们 可 在 多 项 式 的 项 进行 计算 时 将 它们 合并 , 然后 将 结果 排序 。 
a. 编写 一 个 程序 实现 第 二 种 方案 。 

b. 如 果 输 出 多 项 式 大 约 有 O(M + N) 项 , 两 种 方法 的 运行 时 间 各 是 多 少 ? 

描述 一 个 避免 初始 化 散 列 表 的 过 程 ( 以 内 存 消 耗 为 代价 )。 

设 欲 找 出 在 长 输 和 人 串 A,A2°"* An 中 串 Pi Pre P, 的 第 一 次 出 现 。 我 们 可 以 通过 散 列 模 
式 串 (pattern string) 得 到 一 个 散 列 值 H,, 并 将 该 值 与 从 ALA Ag, A2As t Arsis 
A3Aq°**Age2> 等 等 直到 AN-4s1ÀN-4*4277 Ån 形成 的 散 列 值 比较 来 解决 这 个 问题 。 如 
果 得 到 散 列 值 的 一 个 匹配 , 那么 再 逐个 字符 地 对 串 进行 比较 以 检验 这 个 匹配 。 如 果 串 实 
际 上 确实 匹配 , 那么 返回 其 (在 A 中 的 ) 位 置 , 而 在 匹配 失败 这 种 不 大 可 能 的 情况 下 继续 
进行 查找 ， 


a WE BH fy H’ LA Ape BE A, 那么 Ais1A;,5277 A;+4 的 散 列 值 可 以 以 常 


数 时 间 算 出 。 
b. 证 明 运 行 时 间 为 O(k+ N) 加 上 排除 错误 匹配 所 耗费 的 时 间 。 


'c. 证 明 错 误 匹 配 的 期 望 次 数 是 微不足道 的 。 


d. 编写 一 个 程序 实现 该 算法 。 


"e. 描述 一 个 算法 , 其 最 坏 情 形 的 运行 时 间 为 O( + N)。 
"fo 描述 一 个 算法 ,其 平均 运行 时 间 为 OCN) 


一 个 (老式 的 )BASIC 程序 由 一 系列 按 递增 顺序 编号 的 语句 组 成 。 控 制 是 通过 使 用 goto 
或 gosub 和 一 个 语句 编号 实现 的 。 编 写 一 个 程序 读 进 合 法 的 BASIC 程序 并 给 语句 重新 编 
号 , 使 得 第 一 句 在 序号 下 处 开始 并 且 每 一 个 语句 的 序号 比 前 一 语句 高 D。 可 以 假设 N 
条 语句 的 一 个 上 限 , 但 是 在 输入 中 语句 序号 可 以 大 到 32 比特 的 整数 。 所 编 的 程序 必须 
以 线性 时 间 运 行 。 

a. 利用 本 章 末尾 描述 的 算法 实现 字谜 程序 。 

b. 通过 存储 每 一 个 单词 W 以 及 W 的 所 有 前 缀 , 可 以 大 大 加 快运 行 速度 (如 果 W 的 一 个 
前 纵 刚 好 是 词典 中 的 一 个 单词 ,那么 就 把 它 作为 实际 的 单词 来 储存 )。 虽 然 这 看 起 来 
极 大 地 增加 了 散 列 表 的 大 小 , 但 实际 上 并 非 如 此 , 因为 许多 单词 有 相同 的 前 组 。 当 以 
某 个 特定 的 方向 执行 一 次 扫描 的 时 候 , 如 果 被 查找 的 单词 甚至 作为 前 缀 都 不 在 散 列 
表 中 , 那么 在 这 个 方向 上 的 扫描 可 以 及 早 终止 。 利 用 这 种 想法 编写 一 个 改进 的 程序 
来 解决 字迹 游戏 问题 。 
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c. 如 果 我 们 愿意 牺牲 散 列 表 ADT 的 性 能 , 那么 可 以 在 (b) 部 分 使 程序 加 速 : Plan, 如果 
我 们 刚刚 计算 出 “excel "的 散 列 函数 , 那么 就 不 必 再 从 头 开 始 计算 “excels" AY) BF PRK 
调整 散 列 函数 使 得 它 能 够 利用 前 面 的 计算 。 

d. 在 第 2 章 我 们 建议 使 用 折 半 查找 。 把 使 用 前 缀 的 想法 结合 到 你 的 折 半 查找 算法 中 。 
修改 工作 应 该 简单 。 哪 个 算法 更 快 ? 

在 某 些 假设 下 , 向 带 有 二 次 聚集 的 散 列 表 进 行 的 一 次 插 人 操作 的 期 望 代价 由 1《1- A) - 

A 一 In(1 一 A) 给 出 。 不 过 , 这 个 公式 对 于 平方 探测 并 不 精确 。 我 们 假设 它 是 准确 的 ， 

确定 : 

a. 一 次 不 成 功 查找 的 期 望 代价 。 

b. 一 次 成 功 查找 的 期 望 代 价 。 

实现 支持 put 和 get 操作 的 泛 型 Map。 该 实现 方法 将 存储 (关键 字 , 定义 ) 对 的 散 列 表 。 

5-27 提供 Map 的 说 明 (去 掉 某 些 细节 ) 。 


class Map<KeyType,ValueType> 
{ 
public Map( ) 


public void put( KeyType key, ValueType val ) 
public ValueType get( KeyType key ) 

public boolean isEmpty( ) 

public void makeEmpty( ) 


private Quadrat icProbingHashTable«Entry«KeyType, ValueType>> items; 


private static class Entry«KeyType, ValueType» 
( 

KeyType key; 

ValueType value; 

// Appropriate Constructors, etc. 


) 





图 5-27 练习 5.17 的 Map 架构 


通过 使 用 散 列 表 实 现 一 个 拼写 检查 程序 。 设 词典 来 自 两 个 来 源 : 一 本 现 有 的 大 词典 以 及 
包含 一 本 个 人 词典 的 第 二 个 文件 。 输 出 所 有 错 拼 的 单词 和 这 些 单词 出 现 的 行 号 。 再 有 ， 
对 于 每 个 错 拼 的 单词 , 列 出 应 用 下 列 任 一 种 法 则 在 词典 中 能 够 得 到 的 任意 的 单词 : 

a. 添加 一 个 字符 。 

b. 去 掉 一 个 字符 。 

c. 交换 两 个 相 邻 的 字符 。 

指出 将 关键 字 10 111 101, 00 000 010° 10 011 011, 10 111 110, 01 111 111、01 010 001, 
10010 110, 00001 011, 11 001 111, 10 O11 110, 11 O11 011, 00 101 O11, 01 100 001, 
11110000, 01 101 111 插 人 到 一 个 空 的 初始 可 扩散 列 数据 结构 中 的 结果 , 其 中 M= 4。 
编写 一 个 程序 实现 可 扩散 列 法 。 如 果 散 列表 小 到 是 可 装 人 内 存 , 那么 它 的 性 能 与 分 离 链 
接 法 和 开放 定 址 散 列 法 相 比 如 何 ? 
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第 6 章 ”优先 队列 ( 堆 ) 


虽然 发 送 到 打印 机 的 作业 一 般 被 放 到 队列 中 , 但 这 未 必 总 是 最 好 的 做 法 。 例 如 , 可 能 有 一 项 
作业 特别 重要 , 因此 希望 只 要 打印 机 一 有 空闲 就 来 处 理 这 项 作业 。 反 之 , 若 在 打印 机 有 空 时 正好 
有 多 个 单 页 的 作业 及 一 项 100 页 的 作业 等 待 打印 , 则 更 合理 的 做 法 也 许 是 最 后 处 理 长 的 作业 , 尽 
管 它 不 是 最 后 提交 上 来 的 (不 幸 的 是 , 大 多 数 的 系统 并 不 这 么 做 , 有 时 可 能 特别 令 人 刷 恼 )。 

类 似 地 , 在 多 用 户 环境 中 , 操作 系统 调度 程序 必须 决定 在 若干 进程 中 运行 哪个 进程 。 一 般 一 
个 进程 只 被 允许 运行 一 个 固定 的 时 间 片 。 一 种 算法 是 使 用 一 个 队列 。 开 始 时 作业 被 放 到 队列 的 
末尾 。 调 度 程序 将 反复 提取 队列 中 的 第 一 个 作业 并 运行 它 , 直到 运行 完毕 , 或 者 该 作业 的 时 间 片 
用 完 , 并 在 作业 未 运行 完毕 时 把 它 放 到 队列 的 末尾 。 这 种 策略 一 般 并 不 太 合 适 , 因为 一 些 很 短 的 
作业 由 于 一 味 等 待 运行 而 要 花费 很 长 的 时 间 去 处 理 。 一 般 说 来 , 短 的 作业 要 尽 可 能 快 地 结束 ,这 
一 点 很 重要 , 因此 在 已 经 运行 的 作业 当中 这 些 短 作 业 应 该 拥有 优先 权 。 此 外 ,有 些 作 业 虽 不 短小 
但 很 重要 , 也 应 该 拥有 优先 权 。 

这 种 特殊 的 应 用 似乎 需要 一 类 特殊 的 队列 , 我 们 称 之 为 优先 队列 (priority queue)。 在 本 章 
中 , 我 们 将 讨论 : 

。 优先 队列 ADT 的 有 效 实 现 。 

© 优先 队列 的 使 用 。 

。 优先 队列 的 高 级 实现 。 

我 们 将 看 到 的 这 类 数据 结构 属于 计算 机 科学 中 最 精致 的 一 种 。 


6.1 模型 


优先 队列 是 允许 至 少 下 列 两 种 操作 的 数据 结构 : insert( A), 它 的 作用 是 显而易见 的 ; 
以 及 deleteMin( 删 除 最 小 者 ), 它 的 工作 是 找 出 、 返 回 并 删除 优先 队列 中 最 小 的 元 素 。insert 
操作 等 价 于 enqueue( 人 队 ), 而 deleteMin 则 是 队列 运算 dequeue( 出 队 ) 在 优先 队列 中 的 等 价 
操作 。 

如 同 大 多 数 数据 结构 那样 , 有 时 可 能 要 添加 一 些 其 他 的 操作 , 但 这 些 添加 的 操作 属于 扩展 的 
操作 , 而 不 是 图 6-1 所 描述 的 基本 模型 的 一 部 分 。 


删除 最 小 者 — 插入 


6-1 优先 队列 的 基本 模型 


除了 操作 系统 外 , 优先 队列 还 有 许多 的 应 用 。 在 第 7 BE, 我 们 将 看 到 优先 队列 如 何 用 于 外 部 
HEF. ERARE (greedy algorithm) 的 实现 方面 优先 队列 也 是 很 重要 的 , 该 算法 通过 反复 求 出 最 
小 元 来 进行 操作 ; 在 第 9 章 和 第 10 章 我 们 将 看 到 一 些 特殊 的 例子 。 本 章 将 介绍 优先 队列 在 离散 
事件 模拟 中 的 一 个 应 用 。 
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6.2 一 些 简单 的 实现 


有 几 种 明显 的 方法 可 用 于 实现 优先 队列 。 我 们 可 以 使 用 一 个 简单 链表 在 表 头 以 O(1) 执 行 插 
人 操作 , 并 遍历 该 链表 以 删除 最 小 元 , 这 又 需要 O(N) 时 间 。 另 一 种 方法 是 始终 让 链表 保持 排序 
状态 ; 这 使 得 插 和 人 代价 高 昂 (O(N) ) 而 deleteMin 花费 低廉 (O(1))。 基 于 deleteMin 的 操作 从 不 
多 于 插入 操作 的 事实 , 前 者 芍 怕 是 更 好 的 想法 。 

另 一 种 实现 优先 队列 的 方法 是 使 用 二 叉 查 找 树 , 它 对 这 两 种 操作 的 平均 运行 时 间 都 是 O(log 
N)。 尽 管 插入 是 随机 的 ,而 删除 则 不 是 , 但 这 个 结论 还 是 成 立 的 。 记 住 我 们 删除 的 唯一 元 素 是 
最 小 元 。 反 复 除去 左 子 树 中 的 节点 似乎 会 损害 树 的 平衡 , 使 得 右 子 树 加 重 。 然 而 , 右 子 树 是 随机 
的 。 在 最 坏 的 情形 下 , Bil deleteMin 将 左 子 树 删 空 的 情形 下 , 右 子 树 拥 有 的 元 素 最 多 也 就 是 它 应 
具有 的 两 倍 。 这 只 是 在 期 望 的 深度 上 加 了 一 个 小 常数 。 注 意 , 通过 使 用 一 棵 平衡 树 , 可 以 把 这 个 
界 变 成 最 坏 情 形 的 界 ; 这 将 防止 出 现 坏 的 插入 序列 。 

使 用 查找 树 可 能 有 些 过 分 , 因为 它 支持 许 许多 多 并 不 需要 的 操作 。 我 们 将 要 使 用 的 基本 的 
数据 结构 不 需要 链 , 它 以 最 坏 情 形 时 间 O(log N) 支 持 上 述 两 种 操作 。 插 人 操作 实际 上 将 花费 常 
数 平均 时 间 , 若 无 删 除 操作 的 干扰 , 该 结构 的 实现 将 以 线性 时 间 建 立 一 个 具有 N 项 的 优先 队列 。 
然后 , 我 们 将 讨论 如 何 实 现 优 先 队 列 以 支持 有 效 的 合并 。 这 个 附加 的 操作 似乎 有 些 复杂 , 它 显然 
需要 使 用 链接 的 结构 。 


6.3 ZN 


RMK BE f AAF Ly fi — HE (binary heap), 它 的 使 用 对 于 优先 队列 的 实现 相当 普 
i, 以 至 于 当 堆 (heap) 这 个 词 不 加 修饰 地 用 在 优先 队列 的 上 下 文中 时 , 一 般 都 是 指数 据 结构 的 这 
种 实现 。 在 本 节 , 我 们 把 二 义 堆 只 叫做 堆 。 像 二 叉 查 找 树 一 样 , BRAMMER, 即 结构 性 和 堆 
序 性 。 恰 似 AVL 树 , 对 堆 的 一 次 操作 可 能 破坏 这 两 个 性 质 中 的 一 个 , 因此 , 堆 的 操作 必须 到 堆 
的 所 有 性 质 都 被 满足 时 才能 终止 。 事 实 上 这 并 不 难 做 到 。 
6.3.1 结构 性 质 

堆 是 一 棵 被 完全 填 满 的 二 叉 树 ， 有 可 能 的 例外 是 在 底层 , 底层 上 的 元 率 从 左 到 右 填 人 。 这 样 
的 树 称 为 完全 二 叉 树 (complete binary tree)。 图 6-2 给 出 了 一 个 例子 。 


图 6-2 一 棵 完全 二 叉 树 


容易 证 明 , 一 棵 高 为 的 完全 二 叉 树 有 2" 到 2**!' 一 1 个 节点 。 这 意味 着 完全 二 叉 树 的 高 是 
LlogN J, 显然 它 是 O(log N). 
一 个 重要 的 观察 发 现 , 因为 完全 二 叉 树 这 么 有 规律 , 所 以 它 可 以 用 一 个 数组 表示 而 不 需要 使 
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FASE. A 6-3 中 的 数组 对 应 图 6-2 中 的 堆 。 





图 6-3 完全 二 叉 树 的 数组 实现 


对 于 数组 中 任 一 位 置 i 上 的 元 素 , 其 左 儿 子 在 位 置 2; E, 右 儿 子 在 左 儿 子 后 的 单元 (27+1) 
中 , 它 的 父亲 则 在 位 置 L i 人 2 上。 因此 , 这 里 不 仅 不 需要 链 , 而 且 遍 历 该 树 所 需要 的 操作 极 简单 ， 
在 大 部 分 计算 机 上 运行 很 可 能 非常 快 。 这 种 实现 方法 的 唯一 问题 在 于 , 最 大 的 堆 大 小 需要 事先 
估计 , 但 一 般 这 并 不 成 问题 (而 且 如 果 需 要 ,我 们 可 以 重新 调整 大 小 )。 在 图 6-3 中 , 堆 大 小 的 限 
界 是 13 个 元 素 。 该 数组 有 一 个 位 置 0, 后 面 将 详细 投 述 。 

因此 , 一 个 堆 结构 将 由 一 个 (Comparable 对 象 的 ) 数 组 和 一 个 代表 当前 堆 的 大 小 的 整数 组 成 。 
图 6-4 显示 一 个 优先 队列 的 架构 。 


public class BinaryHeap<AnyType extends Comparable<? super AnyType>> 
{ 
public BinaryHeap( ) 
( /* See online code */ } 
public BinaryHeap( int capacity ) 
{ /* See online code */ } 
public BinaryHeap( AnyType [ ] items ) 
{ /* Figure 6.14 */ ) 


public void insert( AnyType x ) 
( /* Figure 6.8 */ ) 
public AnyType findMin( ) 
( /* See online code */ ) 
public AnyType deleteMin( ) 
( /* Figure 6.12 */ ) 
public boolean isEmpty( ) 
( /* See online code */ } 
public void makeEmpty( ) 
( /* See online code */ } 


private static final int DEFAULT CAPACITY = 10; 


private int currentSize; // Number of elements in heap 
private AnyType [ ] array;  // The heap array 


private void percolateDown( int hole ) 
( /* Figure 6.12 */ } 

private void buildHeap( ) 
{ /* Figure 6.14 */ } 

private void enlargeArray( int newSize ) 
{ /* See online code */ } 





图 6-4 优先 队列 的 类 架构 
本 章 我 们 将 始终 把 堆 画 成 树 , 这 意味 着 具体 的 实现 将 使 用 简单 的 数组 。 
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6.3.2 FER 

让 操作 快速 执行 的 性 质 是 堆 序 性 质 (heap-order property)。 由 于 我 们 想 要 快速 找 出 最 小 元 ， 
此 最 小 元 应 该 在 根 上 。 如 果 我 们 考虑 任意 子 树 也 应 该 是 一 个 堆 , 那么 任意 节点 就 应 该 小 于 它 的 
BUB IG ES 

应 用 这 个 逻辑 , 我 们 得 到 堆 序 性 质 。 在 一 个 堆 中 , 对 于 每 一 个 节点 X,，X 的 父亲 中 的 关键 字 
小 于 (或 等 于 )X 中 的 关键 字 , 根 节 点 除外 ( 它 没有 父亲 )”。 在 图 6-5 中 左边 的 树 是 一 个 堆 ， 而 右 
边 的 树 则 不 是 (虚线 表示 堆 有 序 性 被 破坏 )。 


(13) 





图 6-5 两 棵 完全 树 ( 只 有 左边 的 树 是 堆 ) 


根据 堆 序 性 质 , 最 小 元 总 可 以 在 根 处 找到 。 因 此 , 我 们 以 常数 时 间 得 到 附加 操作 findMin。 
6.3.3 基本 的 堆 操作 

无 论 从 概念 上 还 是 实际 上 考虑 , 执行 这 两 个 所 要 求 的 操作 都 是 容易 的 。 所 有 的 工作 都 需要 
保证 始终 保持 堆 序 性 质 。 
insert( 插 人 ) 

为 将 一 个 元 素 X 插入 到 堆 中 , 我 们 在 下 一 个 可 用 位 置 创建 一 个 空 穴 ,和 否则 该 堆 将 不 是 完全 
树 。 如 果 OX 可 以 放 在 该 空 穴 中 而 并 不 破坏 堆 的 序 , 那么 插 人 完成 。 和 否则 , 我 们 把 空 穴 的 父 节点 
上 的 元 素 移入 该 空 穴 中 , 这 样 , 空 穴 就 朝 着 根 的 方向 上 置 一 步 。 继 续 该 过 程 直 到 X 能 被 放 入 空 
穴 中 为 止 。 如 图 6-6 AR, 为 了 插入 14, 我 们 在 堆 的 下 一 个 可 用 位 置 建立 一 个 空 穴 。 由 于 将 14 
HAZARA TEFA, 因此 将 31 BARSK. ÆR 6-7 中 继续 这 种 策略 ,直到 找 出 置 和 14 
的 正确 位 置 。 





图 6-6 ”尝试 插 人 14: 创建 一 个 空 穴 ， 再 将 空 信 上 周 


这 种 一 般 的 策略 叫做 上 滤 (percolate up); 新 元 素 在 堆 中 上 滤 直 到 找 出 正确 的 位 置 。 使 用 
图 6-8 所 示 的 代码 很 容易 实现 插入 。 


”类 似 地 , 我 们 可 以 声明 一 个 (max) 堆 , 它 使 我 们 通过 改变 堆 序 性 质 能 够 有 效 地 找 出 和 删除 最 大 元 。 因 此 , 优先 队 
列 可 以 用 来 找 出 最 大 元 或 最 小 元 , 但 这 需要 提前 决定 。 
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图 6-7 将 14 插 入 到 前 面 的 堆 中 的 其 余 两 步 





* Insert into the priority queue, maintaining heap order. 
* Duplicates are allowed. 
* @param x the item to insert. 
* 
public void insert( AnyType x ) 
{ 

if( currentSize == array.length - 1) 

enlargeArray( array.length * 2 * 1 ); 


// Percolate up 

int hole = ++currentSize; 

for( ; hole > 1 && x.compareTo( array[ hole / 2] ) < 0; hole /= 2 ) 
array[ hole ] = array[ hole / 2 ]; 

array[ hole ] = x; 





1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 
14 
15 
16 


6-8 ”插入 到 一 个 二 叉 堆 的 过 程 


其 实 我 们 本 可 以 使 用 insert 例 程 通过 反复 执行 交换 操作 直至 建立 正确 的 序 来 实现 上 滤 过 
程 , 可 是 一 次 交换 需要 3 条 赋值 语句 。 如 果 一 个 元 素 上 滤 d 层 , 那么 由 于 交换 而 执行 的 赋值 次 数 
就 达到 3d ， 而 我 们 这 里 的 方法 却 只 用 到 d + 1 次 赋值 。 

如 果 要 插 人 的 元 素 是 新 的 最 小 值 , 那么 它 将 一 直 被 推 向 顶端 。 这 样 在 某 一 时 刻 hole 将 是 1, 
并 且 需 要 程序 跳出 循环 。 当 然 我 们 可 以 用 显 式 的 测试 做 到 这 一 点 , 或 者 把 对 被 插 人 项 的 引用 放 
到 位 置 0 处 使 循环 终止 。 我 们 选择 显 式 的 方式 来 完成 插 人 的 实现 。 

如 果 和 欲 插 人 的 元 素 是 新 的 最 小 元 从 而 一 直上 滤 到 根 处 , 那么 这 种 插入 的 时 间 将 长 达 O(log 
N)。 平 均 看 来 , 上 滤 终 止 得 要 早 ; 业已 证 明 , 执行 一 次 插入 平均 需要 2.607 次 比较 , 因此 平均 
insert 操作 上 移 元 素 1.607 层 。 
deleteMin( 删 除 最 小 元 ) 

deleteMin 以 类 似 于 插 人 的 方式 处 理 。 找 出 最 小 元 是 容易 的 , 困难 之 处 是 删除 它 。 当 删除 一 
个 最 小 元 时 , 要 在 根 节 点 建立 一 个 空 穴 。 由 于 现在 堆 少 了 一 个 元 素 , 因此 堆 中 最 后 一 个 元 素 X 
必须 移动 到 该 堆 的 某 个 地 方 。 如 果 X 可 以 被 放 到 空 穴 中 , 那么 deleteMin 完成 。 不 过 这 一 般 不 
太 可 能 ,因此 我 们 将 空 穴 的 两 个 儿子 中 较 小 者 移 人 空 穴 , 这 样 就 把 空 穴 向 下 推 了 一 层 。 重 复 该 步 
又 直到 X 可 以 被 放 人 空 灾 中。 因此 , 我 们 的 做 法 是 将 X 置 人 沿 着 从 根 开 始 包含 最 小 儿子 的 一 条 
路 径 上 的 一 个 正确 的 位 置 。 

图 6-9 中 左 图 显示 了 deleteMin 之 前 的 堆 。 删 除 13 后 , 我 们 必须 试图 正确 地 将 31 放 到 堆 中 。 
31 不 能 放 在 空 穴 中 , 因为 这 将 破坏 堆 序 性 质 。 于 是 , 我 们 把 较 小 的 儿子 14 置信 空 穴 , 同时 空 穴 
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下 滑 一 层 ( 见 图 6-10)。 重 复 该 过 程 , 由 于 31 大 于 19, 因此 把 19 置 人 空 穴 , 在 更 下 一 层 上 建立 一 
个 新 的 空 穴 。 然 后 , 由 于 31 还 是 太 大 ,因此 再 把 26 RAZR, 在 底层 又 建立 一 个 新 的 空 从 。 最 
后 , 我 们 得 以 将 31 置 人 空 穴 中 (图 6-11)。 这 种 一 般 的 策略 叫做 下 滤 (percolate down)。 在 其 实现 
例 程 中 我 们 使 用 类 似 于 在 insert 例 程 中 用 过 的 技巧 来 避免 进行 交换 操作 。 


(13) Q 
© d — M (16) 
(9) Gd (9 & (9) D (9 & 
65) Q6) GD GU 65) Q9 G2) 31 


图 6-9 在 根 处 建立 空 穴 


e € {Y e e 
& e » $ ， 


图 6-10 在 deleteMin 中 的 接 下 来 的 两 步 


D: S & ». d & 
Do. OKOLO 


图 6-11 在 deleteMin 中 的 最 后 两 步 


在 堆 的 实现 中 经 常 发 生 的 错误 是 当 堆 中 存在 偶数 个 元 素 的 时 候 , 将 遇 到 一 个 节点 只 有 一 个 
儿子 的 情况 。 我 们 必须 保证 节点 不 总 有 两 个 儿子 的 前 提 , 因此 这 就 涉及 一 个 附加 的 测试 。 在 图 
6-12 描述 的 程序 中 , 我 们 已 在 第 29 行进 行 了 这 种 测试 。 一 种 极其 巧妙 的 解决 方法 是 始终 保证 算 
法 把 每 一 个 节点 都 看 成 有 两 个 儿子 。 为 了 实施 这 种 解法 ， 当 堆 的 大 小 为 偶数 时 在 每 个 下 滤 开始 
处 , 可 将 其 值 大 于 堆 中 任何 元 素 的 标记 放 到 堆 的 终端 后 面 的 位 置 上 。 我 们 必须 在 深思 熟 滤 以 后 
再 这 么 做 , 而 且 必须 插入 一 个 是 否 确实 使 用 这 种 技巧 的 评判 。 虽 然 这 不 再 需要 测试 右 儿 子 的 存 
在 性 , 但 是 还 是 需要 测试 何 时 到 达 底 层 , 因为 对 每 一 片 树叶 算法 将 需要 一 个 标记 。 

这 种 操作 最 坏 情 形 运行 时 间 为 O(log N)。 平 均 而 言 , 被 放 到 根 处 的 元 素 几 乎 下 滤 到 堆 的 底 
层 ( 即 它 所 来 自 的 那 层 ), 因此 平均 运行 时 间 为 O(log N)。 

6.3.4 其 他 的 堆 操 作 

注意 , 虽然 求 最 小 值 操 作 可 以 在 常数 时 间 完 成 , 但 是 , 按照 求 最 小 元 设计 的 堆 ( 也 称 做 最 小 

堆 ,(min)heap) 在 求 最 大 元 方面 却 无 任何 帮助 。 事 实 上 , 一 个 堆 所 蕴涵 的 序 信息 很 少 , 因此 , 若 不 
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— 

* Remove the smallest item from the príority queue. 

* @return the smallest item, or throw UnderflowException, if empty. 
"y 
public AnyType deleteMin( ) 

( 

if( isEmpty( ) ) 
throw new UnderflowException( ); 


Oo ans Dut WKH = 


AnyType minItem = findMin( ); 
array[ 1 ] = array[ currentSize-- ]; 
percolateDown( 1 ); 


return minItem; 


) 


{= 
* Internal method to percolate down in the heap. 
* @param hole the index at which the percolate begins. 


好 
private void percolateDown( int hole ) 


{ 


int child; 
AnyType tmp = array[ hole ] ; 


for( ; hole * 2 <= currentSize; hole = child ) 
{ 
child = hole * 2; 
if( child != currentSize && 
array[ child + 1 ].compareTo( array[ child ] ) < 0 ) 
childt**; 
if( array[ child ].compareTo( tmp ) < 0 ) 
array[ hole ] = array[ child ]; 
else 
break; 
} 
array[ hole ] = tmp; 





6-12 在 二 叉 堆 中 执行 deleteMin 的 方法 


对 整个 堆 进行 线性 搜索 , 是 没有 办 法 找 出 任何 特定 的 关键 字 的 。 为 说 明 这 一 点 , 考虑 图 6-13 所 
示 的 大 型 堆 结构 (具体 元 素 没 有 标 出 )， 我 们 在 这 里 看 到 , 关于 最 大 值 的 元 素 所 知道 的 唯一 信息 
该 元 素 在 树叶 上 。 但 是 , 半数 的 元 素 位 于 树叶 上 , 因此 该 信息 是 没什么 价值 的 。 由 于 这 个 原 
， 如 果 重 要 的 是 要 知道 元 束 都 在 什么 地 方 ,那么 除 堆 之 外 , 还 必须 用 到 诸如 散 列 表 等 某 些 其 他 
数据 结构 (回忆 ， 该 模型 并 不 允许 查看 堆 内 部 )。 
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图 6-13 一 棵 巨大 的 完全 二 叉 树 


如 果 我 们 假设 通过 某 种 其 他 方法 得 知 每 一 个 元 素 的 位 置 , 那么 就 有 几 种 其 他 操作 的 开销 变 
小 。 下 述 前 三 种 操作 均 以 对 数 最 坏 情 形 时 间 运 行 。 
decreaseKey( 降 低 关 键 字 的 值 ) 

decreaseKey(p, 和) 操作 降低 在 位 置 p 处 的 项 的 值 , 降 值 的 幅度 为 正 的 量 和 A。 由 于 这 可 能 破坏 
EFA, 因此 必须 通过 上 滤 对 堆 进行 调整 。 该 操作 对 系统 管理 员 是 有 用 的 : 系统 管理 员 能 够 使 
他 们 的 程序 以 最 高 的 优先 级 来 运行 。 
increaseKey( 增 加 关键 字 的 值 ) 

increaseKey(p, A) 操作 增加 在 位 置 p 处 的 项 的 值 , 增值 的 幅度 为 正 的 量 A。 这 可 以 用 下 滤 来 
完成 。 许 多 调度 程序 自动 地 降低 正在 过 多 地 消耗 CPU 时 间 的 进程 的 优先 级 。 
delete( 删 除 ) 

delete(p) 操 作 删 除 堆 中 位 置 bp 上 的 节点 。 该 操作 通过 首先 执行 decreaseKey(p，% ) 然 后 再 
执行 deleteMin( ) 来 完成 。 当 一 个 进程 被 用 户 中 止 (而 不 是 正常 终止 ) 时 , 它 必 须 从 优先 队列 中 除 
En 
buildHeap( 构 建 堆 ) 

有 时 二 叉 堆 是 由 一 些 项 的 初始 集合 构造 而 得 。 这 种 构造 方法 以 N 项 作为 输入 , 并 把 它们 放 
到 一 个 堆 中 。 显 然 , 这 可 以 使 用 N 个 相继 的 insert 操作 来 完成 。 由 于 每 个 insert 将 花费 O(1) 
平均 时 间 以 及 O(log N) 的 最 坏 情 形 时 间 , 因此 该 算法 的 总 的 运行 时 间 是 O(N) 平 均 时 间 而 不 是 
O(N log NN) 最 坏 情 形 时 间 。 由 于 这 是 一 种 特殊 的 指令 , 没有 其 他 操作 干扰 , 而 且 我 们 已 经 知道 
该 指令 能 够 以 线性 平均 时 间 来 执行 , 因此 , 期 望 能 够 保证 线性 时 间 界 的 考虑 是 合乎 情理 的 。 

一 般 的 算法 是 将 N 项 以 任意 顺序 放 人 树 中 , 保持 结构 特性 。 此 时 ,如 果 percolateDown( i) 
从 节点 i PUB, 那么 图 6-14 中 的 buildBeap 程序 则 可 以 由 构造 方法 用 于 创建 一 棵 堆 序 的 树 (heap- 
ordered tree)。 

图 6-15 中 的 第 一 棵 树 是 无 序 树 。 从 图 6-15 到 图 6-18 FHA 7 棵 树 表示 出 7 个 percolate 
Down 中 每 一 个 的 执行 结果 。 每 条 虚线 对 应 两 次 比较 : 一 次 是 找 出 较 小 的 儿子 节点 , 另 一 个 是 较 
小 的 儿子 与 该 节点 的 比较 。 注 意 , 在 整个 算法 中 只 有 10 条 虚线 (可 能 已 经 存在 第 11 条 一 一 在 哪 
里 ?), 它们 对 应 20 次 比较 。 

为 了 确定 buildHeap 的 运行 时 间 的 界 , 我 们 必须 确定 虚线 的 条 数 的 界 。 这 可 以 通过 计算 堆 中 
所 有 节点 的 高 度 的 和 来 得 到 , 它 是 虚线 的 最 大 条 数 。 现 在 我 们 想 要 说 明 的 是 : 该 和 为 O (ND). 
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第 6 章 


* Construct the binary heap given an array of items. 
* 


public BinaryHeap( AnyType [ ] items ) 
{ 
currentSize = items.length; 
array = (AnyType[]) new Comparable[ ( currentSize + 2 ) * 11 / 10 ]; 


int 1 = 1; 
for( AnyType item : items ) 
array[ i++ ] = item; 
buildHeap( ); 
} 


kk 


* Establish heap order property from an arbitrary 
* arrangement of items. Runs in linear time. 
gi 
private void buildHeap( ) 
{ 
for( int i = currentSize / 2; i > 0; i-- ) 
percolateDown( i ); 





[8 6-14 buildHeap 的 架构 





6-16 Æ: 在 percolateDown(6)/G; 41: 在 percolateDown( 5)/ri 


& &2^*! 一 1 个 节点 、 高 为 h 的 理想 二 又 树 (perfect binary tree) 的 节点 的 高 度 的 和 


W2**'-1-(h+1). 


证 明 : 
容易 看 出 , 该 树 由 高 度 h 上 的 1 个 节点 、 高度 户 -1 上 的 2 个 节点 、 高 度 疡 -2 上 的 22 个 节 


点 以 及 一 般 地 在 高 度 h 一 i 上 的 2’ 个 节点 等 组 成 。 则 所 有 节点 的 高 度 的 和 为 
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图 6-18 Æ: 在 percolateDown(2)/8 ; H: 在 percolateDown(1)/ri 


S= 22h - i) 
-h*2(h-1) *4(h -2) *8/ -3) + 16(h -4) * 2^ (1) (6.1) 
AML 2 得 到 方程 
2S=2h+4(h—1)+8(h—2)+16(h -3) * - * 2^(1) (6.2) 
将 这 两 个 方程 相 减 得 到 方程 (6.3)。 我 们 发 现 , 非常 数 项 差不多 都 消去 了 ，, 例如 , 2h-2(h-1)= 
2,4(h -1) - 4(h 一 2) =4, 等 等 。 方程 (6.2) 的 最 后 一 项 2^ 在 方程 (6.1) 中 不 出 现 ; 因此 , EHR 
在 方程 (6.3) 中 。 方 程 (6.1) 中 的 第 一 项 h 在 方程 (6.2) 中 不 出 现 ; A, -h 出 现在 方程 (6.3) 
中 。 我 们 得 到 
S= -六 +2+4+8+…+22- «2^ z (2^*! -1) - (A +1) (6.3) 
该 定理 得 证 。 Es] 
一 棵 完全 树 不 是 理想 二 叉 树 , 但 我 们 得 到 的 结果 却 是 一 棵 完全 树 的 节点 高 度 的 和 的 上 界 。 
由 于 一 棵 完全 树 节点 数 在 2 和 2**' 之 间 , 因此 该 定理 意味 着 这 个 和 是 O(N), 其 中 N 是 节点 的 
个 数 。 
虽然 我 们 得 到 的 结果 对 证 明 buildHeap 是 线性 的 而 言 是 充分 的 , 但 是 高 度 的 和 的 界 却 不 是 尽 
可 能 的 强 。 对 于 具有 N—2^ 个 节点 的 完全 树 , 我 们 得 到 的 界 大 致 是 2N。 由 归纳 法 可 以 证 明 , 高 
度 的 和 是 N — b(N) , 其 中 5(N) 是 在 N 的 二 进 制 表示 法 中 1 的 个 数 。 


6.4 优先 队列 的 应 用 


我 们 已 经 提 到 优先 队列 如 何在 操作 系统 的 设计 中 应 用 。 在 第 9 章 , 我 们 将 看 到 优先 队列 如 
何在 有 效 地 实现 几 个 图 论 算法 中 应 用 。 此 处 , 我 们 将 介绍 如 何 应 用 优先 队列 来 得 到 两 个 问题 的 
解答 。 

6.4.1 选择 问题 

我 们 将 要 考察 的 第 一 个 问题 是 来 自 第 1 章 的 选择 问题 (selection problem)。 回 忆 当 时 的 输入 是 
N 个 元 素 以 及 一 个 整数 上 , 这 N 个 元 素 的 集 可 以 是 全 序 集 。 该 选择 问题 是 要 找 出 第 & 个 最 大 的 
X. 
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在 第 1 章 中 给 出 了 两 个 算法 , 但 是 它们 都 不 是 很 有 效 的 算法 。 第 一 个 算法 我 们 称 为 1A, 是 
把 这 些 元 素 读 人 数组 并 将 它们 排序 , 返回 适当 的 元 素 。 人 很 设 使 用 的 是 简单 的 排序 算法 , 则 运行 时 
间 为 O(N?)。 另 一 个 算法 叫做 IB, 是 将 个 元 素 读 人 一 个 数组 并 将 它们 排序 。 这 些 元 素 中 的 最 
小 者 在 第 有 个 位 置 上 。 我 们 一 个 一 个 地 处 理 其 余 的 元 素 。 当 一 个 元 素 开 始 被 处 理 时 , 它 先 与 数 
组 中 第 个 元 素 比 较 , 如 果 该 元 素 大 , 那么 将 第 & 个 元 素 除去 , 而 这 个 新 元 素 则 被 放 在 其 余 & 
i 个 元 素 中 正确 的 位 置 上 。 当 算法 结束 时 , 第 个 位 置 上 的 元 素 就 是 问题 的 解答 。 该 方法 的 运行 
时 间 为 OCN- RCHA?) WME &-[N/21, 那么 这 两 种 算法 都 是 O(N*)。 注 意 , 对 于 任意 的 
k, 我 们 可 以 求解 对 称 的 问题 ; 找 出 第 (NN 一 &+ 1) 个 最 小 的 元 素 , Mil k= N/21 实 际 上 是 这 两 
个 算法 的 最 困难 的 情况 。 这 刚好 也 是 最 有 趣 的 情形 , 因为 & 的 这 个 值 称 为 中 位 数 (median)。 

我 们 在 这 里 给 出 两 个 算法 , 在 上 &=[ NZ2 | 的 极端 情形 它们 均 以 O(N log N) 运 行 , 这 是 明显 
的 改进 。 
算法 6A 

为 了 简单 起 见 , 假设 我 们 只 考虑 找 出 第 & 个 最 小 的 元 素 。 该 算法 很 简单 。 我 们 将 N 个 元 素 
读 人 一 个 数组 。 然 后 对 该 数组 应 用 buildHeap 算 法。 最 后 , 执行 次 deleteMin 操作 。 从 该 堆 最 
后 提取 的 元 素 就 是 我 们 的 答案 。 显 然 , 只 要 改变 堆 序 性 质 , 就 可 以 求解 原始 的 问题 : 找 出 第 上 个 
最 大 的 元 素 。 

这 个 算法 的 正确 性 应 该 是 显然 的 。 如 果 使 用 buildHeap， 则 构造 堆 的 最 坏 情形 用 时 O(N), 
而 每 次 deleteMin 用 时 O(log N). FAFA k 次 deleteMin, 因此 我 们 得 到 总 的 运行 时 间 为 O 
(N+k log N), WẸ k=O(NAog N), 那么 运行 时 间 取 决 于 buildHeap 操作 , Bl O(N)。 对 于 
AM k tE, 运行 时 间 为 O(k log N)。 如 果 上 = N72], 那么 运行 时 间 为 O(N log N)。 

注意 , 如 果 我 们 对 &= N 运行 该 程序 并 在 元 素 离开 堆 时 记录 它们 的 值 , 那么 实际 上 已 经 对 输 
入 文件 以 时 间 O(N log N) 做 了 排序 。 在 第 7 8, 我 们 将 细 化 该 想法 , 得 到 一 种 快速 的 排序 算法 ， 
叫做 堆 排 序 (heapsort)。 
算法 6B 

关于 第 2 个 算法 , 我 们 回 到 原始 问题 ， 找 出 第 & 个 最 大 的 元 素 。 我 们 使 用 算法 1B 的 思路 。 
在 任 一 时 刻 我 们 都 将 维持 & 个 最 大 元 素 的 集合 S。 在 前 & 个 元 素 读 人 以 后 , 当 再 读 人 一 个 新 的 元 
RN, 该 元 素 将 与 第 上 个 最 大 元 素 进 行 比较 , 记 这 第 & 个 最 大 的 元 素 为 Se。 注意 ，Sk 是 S 中 最 
小 的 元 素 。 如 果 新 的 元 素 更 大 , 那么 用 新 元 素 代 替 S 中 的 St。 此 时 ，S 将 有 一 个 新 的 最 小 元 素 ， 
它 可 能 是 新 添加 进来 的 元 素 , 也 可 能 不 是 。 在 输入 终了 时 , 我 们 找到 S 中 的 最 小 的 元 素 , 将 其 返 
回 , 它 就 是 答案 。 

这 基本 上 与 第 1 章 中 描述 的 算法 相同 。 不 过 , 这 里 我 们 使 用 一 个 堆 来 实现 S。 前 & 个 元 素 通 
过 调用 一 次 buildHeap 以 总 时 间 O(&) 被 置信 堆 中 。 处 理 每 个 其 余 的 元 素 的 时 间 为 O(1), 用 于 
检测 是 否 元 素 进 入 S, 再 加 上 时 间 O(log k), 用 于 在 必要 时 删除 S, 并 插 人 新 元 素 。 因 此 , 总 的 
时 间 是 O(k + (NN 一 上 )log k)=0O(N log 有)。 该 算法 也 给 出 找 出 中 位 数 的 时 间 界 O(N log N)。 

在 第 7 章 , 我 们 将 看 到 如 何以 平均 时 间 O(N ) 解 决 这 个 问题 。 在 第 10 章 , 我 们 将 看 到 一 个 
以 O(N) 最 坏 情形 时 间 求 解 该 问题 的 算法 , 虽然 不 实用 但 却 很 精妙 。 
6.4.2 事件 模拟 

在 3.7.3 节 我 们 描述 了 一 个 重要 的 排队 问题 。 在 那里 我 们 有 一 个 系统 ,比如 银行 , 顾客 们 到 
达 并 排队 等 待 直到 个 出 纳 员 有 一 个 膳 出手 来 。 顾 客 的 到 达 情 况 由 概率 分 布 函数 控制 ， 服 务 时 
间 ( 一 旦 出 纳 员 腾 出 时 间 用 于 服务 的 时 间 量 ) 也 是 如 此 。 我 们 的 兴趣 在 于 一 位 顾客 平均 必须 要 等 
多 久 或 所 排 的 队伍 可 能 有 多 长 这 类 统计 问题 。 
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X T edo Ado k 的 一 些 值 , 答案 都 可 以 精确 地 计算 出 来 。 然 而 随 着 k 的 增 大 , 分 析 
明显 地 变 得 困难 , 因此 使 用 计算 机 模拟 银行 的 运作 很 有 吸引 力 。 用 这 种 方法 , 银行 管理 人 员 可 以 
确定 为 保证 合理 、 通 畅 的 服务 需要 多 少 出 纳 员 。 

模拟 由 处 理 中 的 事件 组 成 。 这 里 的 两 个 事件 是 (a) 一 位 顾客 到 达 ， 和 (b) 一 位 顾客 离 去 ,从 而 
腾 出 一 名 出 纳 员 。 

我 们 可 以 使 用 概率 隙 数 来 生成 一 个 输入 流 , 它 由 每 位 顾客 的 到 达 时 间 和 服务 时 间 的 序 偶 组 
AL, 并 按 到 达 时 间 排 序 。 我 们 不 必 使 用 一 天 中 的 准确 时 间 , 而 是 使 用 一 份 单位 时 间 量 , 称 之 为 一 
个 滴答 {tick)。 

进行 这 种 模拟 的 一 种 方法 是 启动 处 在 0 滴答 处 的 一 台 模 拟 钟表 。 我 们 让 钟表 一 次 走 一 个 滴 
^. 同时 查看 是 否 有 事件 发 生 。 如 果 有 , 就 处 理 这 个 ( 些 ) 事 件 , 搜集 统计 资料 。 当 没有 顾客 留 在 
输入 流 且 所 有 的 出 纳 员 都 空闲 的 时 候 , 模拟 结束 。 

这 种 模拟 策略 的 问题 是 , 它 的 运行 时 间 不 依赖 顾客 数 或 事件 数 (每 位 顾客 有 两 个 事件 ), 但 是 
却 依赖 滴答 数 , 而 后 者 实际 又 不 是 输入 的 一 部 分 。 为 了 看 清 为 什么 问题 在 于 此 , 假设 将 钟表 的 单 
位 改 成 毫 { 千 分 之 一 ) 滴 答 (millitick) 并 将 输入 中 的 所 有 时 间 乘 以 1000, 则 结果 将 是 : 模拟 用 时 长 
1000 fit! 

避免 这 种 问题 的 关键 是 在 每 一 个 阶段 让 钟表 直接 走 到 下 一 个 事件 时 间 。 从 概念 上 看 这 是 容 
易 做 到 的 。 在 任 一 时 刻 , 可 能 出 现 的 下 一 事件 要 么 是 (a) 在 输入 文件 中 下 一 顾客 的 到 达 , 要 么 是 
(b) 在 一 名 出 纳 员 处 一 位 顾客 离开 。 由 于 事件 将 要 发 生 的 所 有 的 时 间 都 是 可 以 达到 的 , 因此 我 们 
只 需 找 出 在 最 近 的 将 来 发 生 的 事件 并 处 理 这 个 事件 。 

如 果 事 件 是 离开 , 那么 处 理 过 程 包括 搜集 离开 的 顾客 的 统计 资料 以 及 检验 队伍 (队列 ) 看 是 
否 还 有 另外 的 顾客 在 等 待 。 如 果 有 , 那么 我 们 加 上 这 位 顾客 , 处 理 需 要 的 统计 资料 , 计算 顾客 将 
要 离开 的 时 间 , 并 将 离开 加 到 等 待 发 生 的 事件 集中 去 。 

如 果 事 件 是 到 达 , 则 检查 处 于 空闲 的 出 纳 员 。 如 果 没 有 , 就 把 该 到 达 放 到 队伍 (队列 ) 中 去 ; 
否则 , 我们 分 配 顾客 一 个 出 纳 员 , 计算 顾客 的 离开 时 间 , 并 将 离开 加 到 等 待 发 生 的 事件 集中 去 。 

顾客 在 等 待 的 队伍 可 以 实现 为 一 个 队列 。 由 于 我 们 需要 找到 最 近 的 将 来 发 生 的 事件 , 因此 
合适 的 办 法 是 将 等 待 发 生 的 离开 的 集合 编 人 一 个 优先 队列 中 。 下 一 事件 是 下 一 个 到 达 或 下 一 个 
离开 (那个 先 发 生 就 是 哪个 ); 它们 都 容易 达到 。 

现在 就 可 以 为 模拟 编写 例 程 了 , 虽然 很 可 能 耗费 时 间 。 如 果 有 C 个 顾客 (因此 有 2C 个 事件 ) 
和 上 个 出 纳 员 , 那么 模拟 的 运行 时 间 将 会 是 O(C log(k +1)), 因为 计算 和 处 理 每 个 事件 花费 
O(log H), 其 中 H=k+1 为 堆 的 大 小 9。 


6.5 d- 堆 


二 义 堆 是 如 此 简单 ,以 至 于 它们 几乎 总 是 用 在 需要 优先 队列 的 时 候 。d- 堆 是 二 叉 堆 的 简单 
推广 , 它 就 像 一 个 二 叉 堆 , 只 是 所 有 的 节点 都 有 d 个 儿子 (因此 , 二 又 堆 是 2- 堆 )。 

6-19 表示 的 是 一 个 3- 堆 。 注 意 , d- 堆 要 上 比 二 叉 堆 浅 得 多 , 它 将 insert 操作 的 运行 时 间 改 
进 为 O(log, N)。 然 而 , 对 于 大 的 d, deleteMin 操作 费时 得 多 , 因为 虽然 树 是 浅 了 , 但 是 d TIL 
子 中 的 最 小 者 是 必须 要 找 出 的 , 如 使 用 标准 的 算法 , 这 会 花费 d -1 次 比较 , 于 是 将 操作 的 用 时 
提高 到 Old log, N) WR d 是 常数 , 那么 当然 两 个 的 运行 时 间 都 是 O(log N)。 虽 然 仍然 可 以 
使 用 一 个 数组 , 但 是 , 现在 找 出 儿子 和 父亲 的 乘法 和 除法 都 有 个 因子 d, 除非 d 是 2 BE, 否则 


O ”我们 用 OCC log(k +1)) MAR OCC log kR k = 1 情形 的 混乱 。 
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将 会 大 大 增加 运行 时 间 , 因为 我 们 不 能 再 通过 移 一 个 二 进 制 位 来 实现 除法 了 。d- 堆 在 理论 上 很 
AR, 因为 存在 许多 算法 , 其 插入 次 数 比 deleteMin 的 次 数 多 得 多 (因此 理论 上 的 加 速 是 可 能 
的 )。 当 优先 队列 太 大 而 不 能 完全 装 人 主 存 的 时 候 ,d- 堆 也 是 很 有 用 的 。 在 这 种 情况 下 ，d- 堆 能 
够 以 与 B 树 大 致 相同 的 方式 发 挥 作用 。 最 后 , 有 证 据 显 示 , 在 实践 中 4- 堆 可 以 胜 过 二 叉 堆 。 





图 6-19 一 个 d-HE 


除 不 能 实施 find Sh, 堆 实 现 的 最 明显 的 缺点 是 : 将 两 个 堆 合 并 成 一 个 堆 是 困难 的 操作 。 这 
种 附加 的 操作 叫做 合并 (merge)。 存 在 许多 实现 堆 的 方法 使 得 一 次 merge 操作 的 运行 时 间 是 
O(log N)。 现 在 我 们 就 来 讨论 三 种 复杂 程度 不 一 的 数据 结构 , 它们 都 有 效 地 支持 merge RE. R 
们 将 把 复杂 的 分 析 推 迟到 第 11 章 讨论 。 


6.6 Asti 


设计 一 种 堆 结构 像 二 叉 堆 那 样 有 效 地 支持 合并 操作 ( 即 以 o(NN) 时 间 处 理 一 个 merge) 而且 只 
使 用 一 个 数组 似乎 很 困难 。 原 因 在 于 , 合并 似乎 需要 把 一 个 数组 拷贝 到 另 一 个 数组 中 去 , 对 于 相 
同 大 小 的 堆 这 将 花费 时 间 B@(N)。 正 因为 如 此 , 所 有 支持 有 效 合并 的 高 级 数据 结构 都 需要 使 用 链 
式 数据 结构 。 实 践 中 , 我 们 预计 这 将 可 能 使 得 所 有 其 他 操作 变 慢 。 

左 式 堆 (leftist heap) 像 二 叉 堆 那样 也 具有 结构 性 和 有 序 性 。 事 实 上 ， 和 所 有 使 用 的 堆 一 样 ， 
左 式 堆 具有 相同 的 堆 序 性 质 , 该 性 质 我 们 已 经 看 到 过 。 不 仅 如 此 , 左 式 堆 也 是 二 叉 树 。 左 式 堆 和 
二 叉 堆 唯一 的 区 别 是 : 左 式 堆 不 是 理想 平衡 的 (perfectly balanced) ,而 实际 上 趋向 于 非常 不 平衡 。 
6.6.1 左 式 堆 性 质 

我 们 把 任 一 节点 X 的 零 路 径 长 (null path length)npl(X) 定 义 为 从 X. 到 一 个 不 具有 两 个 儿子 的 


节点 的 最 短路 径 的 长 。 因 此 ,具有 0 个 或 一 个 儿子 的 节点 的 mpl 为 0, 而 npl(null) = - 1。 在 图 
6-20 的 树 中 , 零 路 径 长 标记 在 树 的 节点 内 。 
9 En 
9 Q @ 人 @ 
o) 0 (0) y 
o O @ 


图 6-20 ”两 棵 树 的 零 路 径 长 ; 只 有 左边 的 树 是 左 式 的 


注意 , 任 一 节点 的 零 路 径 长 比 它 的 各 个 儿子 节点 的 零 路 径 长 的 最 小 值 大 1。 这 个 结论 也 适用 
少 于 两 个 儿子 的 节点 , AA null 的 零 路 径 长 是 - 1。 
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左 式 堆 性 质 是 : 对 于 堆 中 的 每 一 个 节点 X, 左 儿 子 的 零 路 径 长 至 少 与 右 儿 子 的 零 路 径 长 相 
等 。 图 6-20 中 只 有 一 棵 树 , 即 左 边 的 那 棵 树 满足 该 性 质 。 这 个 性 质 实际 上 超出 了 它 确 保 树 不 平 
衡 的 要 求 , 因为 它 显然 偏重 于 使 树 向 左 增加 深度 。 确 实 有 可 能 存在 由 左 节 点 形成 的 长 路 径 构成 
的 树 (而 且 实 际 上 更 便于 合并 操作 ) 一 一 因此 , 我 们 就 有 了 名 称 左 式 堆 (leftist heap)。 

因为 左 式 堆 趋向 于 加 深 左 路 径 , 所 以 右 路 径 应 该 短 。 事 实 上 , 沿 左 式 堆 右 侧 的 右 路 径 确 实 是 
该 堆 中 最 短 的 路 径 。 否 则 ,就 会 存在 过 某 个 节点 X 的 一 条 路 径 通过 它 的 左 儿 子 , 此 时 X 就 破坏 
了 左 式 堆 的 性 质 。 

定理 6.2 在 右 路 径 上 有 7 个 节点 的 左 式 树 必然 至 少 有 2 一 1 个 节点 。 

iE AA: 

用 数学 归纳 法 证 明 。 如 果 r=1, 则 必然 至 少 存在 一 个 树 节点 。 其 次 , 设 定理 对 1、2、...、r 
个 节点 成 立 。 考 虑 在 右 路 径 上 有 r+1 个 节点 的 左 式 树 。 此 时 , 根 具 有 在 右 路 径 上 含 ~ 个 节点 的 
右 子 树 , 以 及 在 右 路 径 上 至 少 含 r 个 节点 的 左 子 树 ( 否 则 它 就 不 是 左 式 树 )。 对 这 两 棵 子 树 应 用 
归纳 假设 , 得 知 在 每 棵 子 树 上 最 少 有 27 - 1 个 节点 , 再 加 上 根 节点 , 于 是 在 该 树 上 至 少 有 2 -1 
个 节点 ,定理 得 证 。 E 

从 这 个 定理 立刻 得 到 ，N 个 节点 的 左 式 树 有 一 条 右 路 径 最 多 含有 Llog (N+1)j 个 节点 。 
对 左 式 堆 操作 的 一 般 思 路 是 将 所 有 的 工作 放 到 右 路 径 上 进行 , 它 保 证 树 深 度 短 。 唯 一 的 棘手 
部 分 在 于 , 对 右 路 径 的 insert 和 merge 可 能 会 破坏 左 式 堆 性 质 。 事 实 上 , 恢复 该 性 质 是 非常 容易 
的 。 
6.6.2 左 式 堆 操作 

对 左 式 堆 的 基本 操作 是 合并 。 注 意 , 插入 只 是 合并 的 特殊 情形 ,因为 我 们 可 以 把 插入 看 成 是 
单 节点 堆 与 一 个 大 的 堆 的 merge。 首 先 , 我 们 给 出 一 个 简单 的 递归 解法 , 然后 介绍 如 何 能 够 非 递 
归 地 执行 该 解法 。 我 们 的 输入 是 两 个 左 式 堆 H, A H, 见 图 6-21。 读 者 应 该 验证 , 这 些 堆 确 实 是 
左 式 堆 。 注 意 , 最 小 的 元 素 在 根 处 。 除 数据 、 左 引用 和 右 引 用 所 用 空间 外 , 每 个 节点 还 要 有 一 个 
指示 零 路 径 长 的 项 。 





图 6-21 两 个 左 式 堆 H, Al Hz 


如 果 这 两 个 堆 中 有 一 个 堆 是 空 的 , 那么 我 们 可 以 返回 另外 一 个 堆 。 否 则 , 合并 这 两 个 堆 , E 
较 它 们 的 根 。 首 先 , 我 们 递归 地 将 具有 大 的 根 值 的 堆 与 具有 小 的 根 值 的 堆 的 右 子 堆 合并 。 在 本 
例 中 , 我 们 递归 地 将 H, 与 H, 的 根 在 8 处 的 右 子 堆 合并 , 得 到 图 6-22 中 的 堆 。 

由 于 这 棵 树 是 递归 形成 的 ， 而 我 们 尚未 对 算法 描述 完毕 , 因此 , 现在 还 不 能 说 明 该 堆 是 如 何 
得 到 的 。 不 过 , 有 理由 假设 , 最 后 的 结果 是 一 个 左 式 堆 , 因为 它 是 通过 递归 的 步骤 得 到 的 。 这 很 
像 归纳 法 证 明 中 的 归纳 假设 。 既 然 我 们 能 够 处 理 基准 情形 (发 生 在 一 棵 树 是 空 的 时 候 )， 当 然 可 
以 假设 ,只 要 能 够 完成 合并 那么 递归 步骤 就 是 成 立 的 ; 这 是 递归 法 则 3, 我 们 在 第 一 章 中 讨论 过 。 
RE, 我 们 让 这 个 新 的 堆 成 为 H, 的 根 的 右 儿子 ( 见 图 6-23). 
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6-23 ”将 前 面 图 中 的 左 式 堆 作为 Hl 的 右 儿 子 接 上 后 的 结果 


虽然 最 后 得 到 的 堆 满足 堆 序 性 质 , 但 是 , 它 不 是 左 式 堆 ， 因 为 根 的 左 子 树 的 零 路 径 长 为 1, 而 
根 的 右 子 树 的 零 路 径 长 为 2。 因 此 , 左 式 的 性 质 在 根 处 被 破坏 。 不 过 , 容易 看 到 , 树 的 其 余部 分 
必然 是 左 式 的 。 由 于 递归 步骤 , 根 的 右 子 树 是 左 式 的 。 根 的 左 子 树 没 有 变化 ,当然 它 也 必然 还 是 
左 式 的 。 这 样 一 来 , 我 们 只 要 对 根 进行 调整 就 可 以 了 。 使 整个 树 是 左 式 的 操作 如 下 : 只 要 交换 根 
的 左 儿 子 和 右 儿 子 (图 6-24) 并 更 新 零 路 径 长 , 就 完成 了 merge, 新 的 零 路 径 长 是 新 的 右 儿 子 的 零 
路 径 长 加 1。 注 意 , 如 果 零 路 径 长 不 更 新 , 那么 所 有 的 零 路 径 长 都 将 是 0, 而 堆 将 不 是 左 式 的 , 只 
是 随机 的 。 在 这 种 情况 下 , 算法 仍然 成 立 , 但 是 , 我 们 宣称 的 时 间 界 将 不 再 有 效 。 





624 交换 Hi 的 根 的 儿子 得 到 的 结果 
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将 算法 的 描述 直接 翻译 成 代码 。 除 了 增加 npl( 零 路 径 长 ) 域 外 , 节点 类 (图 6-25) 与 二 又 树 是 
相同 的 。 左 式 堆 把 对 根 的 引用 作为 其 数据 成 员 存储 。 我 们 在 第 4 章 已 经 看 到 , 当 一 个 元 素 被 插 人 
到 一 棵 空 的 二 叉 树 时 , 由 根 引 用 的 节点 将 需要 改变 。 我 们 使 用 通常 的 实现 private 递归 方法 的 技 
巧 进行 合并 。 该 类 的 架构 也 如 图 6-25 所 示 。 


public class LeftistHeap<AnyType extends Comparable«? super AnyType>> 
( 
public LeftistHeap( ) 
( root = null; ) 


public void merge( LeftistHeap<AnyType> rhs ) 
{ /* Figure 6.26 */ } 
public void insert( AnyType x ) 
|. /* Figure 6.29 */ } 
public AnyType findMin( ) 
( /* See online code */ } 
public AnyType deleteMin( ) 
{ /* Figure 6.30 */ ) 


public boolean isEmpty( ) 
{ return root == null; } 
public void makeEmpty( ) 
{ root = null; } 


private static class Node<AnyType> 
{ 
// Constructors 
Node( AnyType theElement ) 
{ this( theElement, null, null ); } 


Node( AnyType theElement, Node<AnyType> 1t, Node<AnyType> rt ) 
{ element = theElement; left = It; right = rt; npl = 0; } 


AnyType element; // The data in the node 
Node<AnyType> left; // Left child 
Node<AnyType> right; // Right child 
int np! ; // null path length 

} 


private Node<AnyType> root; /[ root 


private Node<AnyType> merge( Node<AnyType> hl, Node<AnyType> h2 ) 
{ /* Figure 6.26 */ } 

private Node<AnyType> mergel( Node<AnyType> hl, Node<AnyType> h2 ) 
{ /* Figure 6.27 */ ) 

private void swapChildren( Node<AnyType> t ) 
{ /* See online code */ ) 





图 6-25 左 式 堆 类 型 声明 
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BA merge 例 程 (图 6-26) 被 设计 成 消除 一 些 特殊 情形 并 保证 Hl 有 较 小 根 的 驱动 程序 。 实 际 
的 合并 操作 在 mergel 中 进行 (图 6-27)。 公 有 的 merge 方法 将 rhs 合并 到 控制 堆 中 。rhs BMT E 
的 。 在 这 个 公有 方法 中 的 别名 测试 不 接受 h. merge(h)。 

执行 合并 的 时 间 与 诸 右 路 径 的 长 的 和 成 正比 , 因为 在 递归 调用 期 间 对 每 一 个 被 访问 的 节点 
花费 的 是 常数 工作 量 。 因 此 , 我 们 得 到 合并 两 个 左 式 堆 的 时 间 界 为 O(log N)。 也 可 以 分 两 趟 来 
非 递归 地 执行 该 操作 。 在 第 一 趟 , 我 们 通过 合并 两 个 堆 的 右 路 径 建 立 一 棵 新 的 树 。 为 此 , 以 排序 
的 方式 安排 Hi A H 右 路 径 上 的 节点 , 保持 它们 各 自 的 左 儿 子 不 变 。 在 我 们 的 例子 中 , HHA 
路 径 是 3, 6, 7, 8, 18, 而 最 后 得 到 的 树 如 图 6-28 所 示 。 第 二 趟 构成 堆 , 儿子 的 交换 工作 在 左 式 
堆 性 质 被 破坏 的 那些 节点 上 上 进行。 在 图 6-28 中 , 在 节点 7 和 3 各 有 一 次 交换 , 并 得 到 与 前 面相 
同 的 树 。 非 递归 的 做 法 更 容易 理解 , 但 编程 困难 。 我 们 留 给 读者 去 证 明 : 递归 过 程 和 非 递 归 过 程 
的 结果 是 相同 的 。 


/** 

* Merge rhs into the priority queue. 

* rhs becomes empty. rhs must be different from this. 
* @param rhs the other leftist heap. 

*/ 
public void merge( LeftistHeap<AnyType> rhs ) 

{ 


if( this == rns ) // Avoid aliasing problems 


return; 


oO O0) - AU AWK» 


root = merge( root, rhs.root ); 
rhs.root = null; 


/** 
* Internal method to merge two roots. 
* Deals with deviant cases and calls recursive mergel. 
"y 
private Node<AnyType> merge( Node<AnyType> hl, Node<AnyType> h2 ) 
{ 
if( hl == null ) 
return h2; 
if( h2 == null ) 
return hl; 
if( hl.element.compareTo( h2.element ) < 0 ) 
return mergel( hl, h2 ); 
else 
return mergel( h2, hl ); 





图 6-26 合并 左 式 堆 的 驱动 例 程 


EHER, 我 们 可 以 通过 把 被 插入 项 看 成 单 节点 堆 并 执行 一 次 merge 来 完成 插入 。 为 了 执行 
deleteMin, 我 们 只 要 除 掉 根 而 得 到 两 个 维 , 然后 再 将 这 两 个 堆 合 并 即 可 。 因 此 , 执行 一 次 
deleteMin 的 时 间 为 O(log N)。 这 两 个 例 程 在 图 6-29 和 图 6-30 中 给 出 。 
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ao 
* Internal method to merge two roots. 
* Assumes trees are not empty, and hl's root contains smallest item. 
"f 
private Node<AnyType> mergel( Node<AnyType> hl, Node<AnyType> h2 ) 
{ 
if( hl.left == null ) // Single node 
hl.left - h2; // Other fields in hl already accurate 
else 


{ 


1 
2 
3 
4 
5 
6 
7 
8 
9 
10 


— 
— 


hl.right = merge( hl.right, h2 ); 
if( hl.left.npl < hl.right.npl ) 
swapChildren( hl ); 
hl.npl = hl.right.npl + 1; 
} 


return hl; 


— — — — — — 
“SA VA NY 





图 6-27 合并 左 式 堆 的 实际 例 程 





图 6-28 合并 Hl 和 HP 的 右 路 径 的 结果 


A 
* Insert into the priority queue，maintaining heap order. 
* @param x the item to insert. 
*/ 
public void insert( AnyType x ) 
{ 
root = merge( new Node<AnyType>( x ), root ); 


} 


] 
2 
3 
4 
5 
6 
7 
8 





86-29 左 式 堆 的 插 人 例 程 


最 后 , 我 们 可 以 通过 建立 一 个 二 叉 堆 (显然 使 用 链接 实现 ) 来 以 O(N) 时 间 建 立 一 个 左 式 堆 。 
尽管 二 叉 堆 显然 是 左 式 的 , 但 是 , 这 未 必 是 最 佳 解决 方案 ， 因 为 我 们 得 到 的 堆 可 能 是 最 差 的 左 式 
堆 。 不 仅 如 此 , 以 相反 的 层 序 遍 历 树 用 一 些 链 来 进行 也 不 那么 容易 。buildHeap 的 效果 可 以 通过 
递归 地 建立 左右 子 树 然后 将 根 下 滤 而 达到 。 练 习 中 包括 另外 一 个 解决 方案 。 
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fr 
* Remove the smallest item from the priority queue. 
* @return the smallest item, or throw UnderflowException if empty. 
*/ 
public AnyType deleteMin( ) 
{ 

if( isEmpty( ) ) 

throw new UnderflowException( ); 


l 
2 
3 
4 
5 
6 
7 
8 


AnyType minItem = root.element; 
root = merge( root.left, root.right ); 


return minItem; 





图 6-30 左 式 堆 的 deleteMin 例 程 


6.7 i 


FHE (skew heap) 是 左 式 堆 的 自 调节 形式 ,实现 起 来 极其 简单 。 斜 堆 和 左 式 堆 间 的 关系 类 似 
于 伸展 树 和 AVL 树 间 的 关系 。 斜 堆 是 具有 堆 序 的 二 又 树 , 但 不 存在 对 树 的 结构 限制 。 不 同 于 左 
式 堆 , 关于 任意 节点 的 零 路 径 长 的 任何 信息 都 不 再 保留 。 斜 堆 的 右 路 径 在 任何 时 刻 都 可 以 任意 
K, 因此 , 所 有 操作 的 最 坏 情形 运行 时 间 均 为 O(N)。 然 而 , 正如 伸展 树 一 样 ,可 以 证 明 ( 见 第 
11 章 ) 对 任意 M 次 连续 操作 , 总 的 最 坏 情形 运行 时 间 是 OCM log N)。 因 此 , 斜 堆 每 次 操作 的 摊 
还 开销 (amortized cost) 为 O(log N)。 

与 左 式 堆 相 同 , 斜 堆 的 基本 操作 也 是 合并 操作 。merge 例 程 还 是 递归 的 , 我 们 执行 与 以 前 完 
全 相同 的 操作 , 但 有 一 个 例外 , BD: 对 于 左 式 堆 , 我 们 查看 是 否 左 儿 子 和 右 儿 子 满足 左 式 堆 结构 
性 质 , 并 在 不 满足 该 性 质 时 将 它们 交换 。 但 对 于 斜 堆 ,， 交换 是 无 条 件 的 , 除 那些 右 路 径 上 所 有 节 
点 的 最 大 者 不 交换 它 的 左右 儿子 的 例外 外 , 我 们 都 要 进行 这 种 交换 。 这 个 例外 就 是 在 自然 递归 
实现 时 所 发 生 的 情况 , 因此 它 实际 上 根本 不 是 特殊 情形 。 此 外 , 证 明 时 间 界 也 是 不 必要 的 , 但 
E, 由 于 这 样 的 节点 肯定 没有 右 儿子 , 因此 执行 交换 是 不 明智 的 (在 我 们 的 例子 中 , 该 节点 没有 
儿子 , 因此 我 们 不 必 为 此 担心 )。 另 外 , 仍 设 我 们 的 输入 是 与 前 面相 同 的 两 个 堆 ， 见 图 6-31。 





如 果 我 们 递归 地 将 FH; 与 H, 的 根 在 8 处 的 子 堆 合 并 , 那么 将 得 到 图 6-32 中 的 堆 。 

这 又 是 递归 完成 的 , 因此 , 根据 递归 的 第 三 个 法 则 (1.3 节 ) 我 们 不 必 担 心 它 是 如 何 得 到 的 。 
这 个 堆 碰巧 是 左 式 的 , 不 过 不 能 保证 情况 总 是 如 此 。 我 们 使 这 个 堆 成 为 Hi 的 新 的 左 儿子 , 而 H, 
的 老 的 左 儿 子 变 成 了 新 的 右 儿子 ( 见 图 6-33)。 
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图 6-33 合并 斜 堆 H, 和 H: 的 结果 


整个 树 是 左 式 的 , 但 是 容易 看 到 这 并 不 总 是 成 立 的 : 将 15 插入 到 新 堆 中 将 破坏 左 式 性 质 。 

我 们 也 可 像 左 式 堆 那样 非 递归 地 进行 所 有 操作 : 合并 右 路 径 , 除 最 后 的 节点 外 交换 右 路 径 上 
每 个 节点 的 左 儿 子 和 右 儿 子 。 经 过 几 个 例子 之 后 , 事情 变 得 很 清楚 ,由 于 除去 右 路 径 上 最 后 的 节 
点 外 的 所 有 节点 都 将 它们 的 儿子 交换 ,因此 最 终 效 果 是 它 变 成 了 新 的 左 路 径 ( 参 见 前 面 的 例子 以 
便 使 你 自己 确信 )。 这 使 得 合并 两 个 斜 堆 非 常 容易 9 。 

斜 堆 的 实现 留 作 (平凡 的 ) 练 习 。 注 意 , 因为 右 路 径 可 能 很 长 , 所 以 递归 实现 可 能 由 于 缺乏 栈 
空间 而 失败 , 尽管 在 其 他 方面 性 能 是 可 接受 的 。 斜 堆 有 一 个 优点 , 即 不 需要 附加 的 空间 保留 路 径 
长 以 及 不 需要 测试 以 确定 何 时 交换 儿子 。 精 确 确定 左 式 堆 和 斜 堆 的 右 路 径 长 的 期 望 值 是 一 个 尚 
未 解决 的 问题 (后 者 无 疑 更 为 困难 )。 这 样 的 比较 将 更 容易 确定 平衡 信息 的 轻微 遗失 是 否 可 由 缺 
乏 测 试 来 补偿 。 


6.8 二 项 队列 


虽然 左 式 堆 和 斜 堆 都 在 每 次 操作 以 O(log N) 时 间 有 效 地 支持 合并 、 插入 和 deleteMin, 但 还 
是 有 改进 的 余地 , 因为 我 们 知道 ， 二 叉 堆 以 每 次 操作 花费 常数 平均 时 间 支 持 插 人。 二 项 队列 支持 
所 有 这 三 种 操作 , 每 次 操作 的 最 坏 情形 运行 时 间 为 O(log N), 而 插入 操作 平均 花费 常数 时 间 。 


O 这 与 递归 实现 不 完全 相同 (但 服从 相同 的 时 间 界 )。 如 果 一 个 堆 的 右 路 径 用 完 而 导致 右 路 径 合 并 终止 ,而 我 们 只 交 
换 终止 的 那 一 点 上 面 的 右 路 径 上 那些 节点 的 儿子 ,那么 将 得 到 与 递归 做 法 相同 的 结果 。 
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6.8.1 二 项 队列 结构 

二 项 队列 (binomial queue) 与 我 们 已 经 看 到 的 所 有 优先 队列 的 实现 的 区 别 在 于 , 一 个 二 项 队列 
不 是 一 棵 堆 序 的 树 , 而 是 堆 序 的 树 的 集合 , 称 为 森林 (forest)。 每 一 棵 堆 序 树 都 是 有 约束 的 形式 ， 
叫做 二 项 树 (binomial tree, 后 面 将 看 到 该 名 称 的 由 来 是 显然 的 )。 每 一 个 高 度 上 至 多 存在 一 棵 二 
项 树 。 高 度 为 0 的 二 项 树 是 一 棵 单 节点 树 ; 高 度 为 上 的 二 项 树 B, 通过 将 一 棵 二 项 树 B, _1 附 接 到 
另 一 棵 二 项 树 B, ,的 根 上 而 构成 。 图 6-34 显示 二 项 树 Bo, Bi, B2, B3 以 及 Bao 


— 


B, 


图 6-34 二 项 树 Bo, Bi. B;. Bs 以 及 B, 
从 图 中 看 到 , 二 项 树 B 由 一 个 带 有 儿子 Bo，Bi，...，Bx -1 的 根 组 成 。 高 度 为 上 的 二 项 树 恰 


好 有 24 个 节点 , 而 在 深度 d 处 的 节点 数 是 二 项 系数 ; |. 如 果 我 们 把 堆 序 施加 到 二 项 树 上 并 允 


许 任意 高 度 上 最 多 一 棵 二 项 树 , 那么 就 能 够 用 二 项 树 的 集合 表示 任意 大 小 的 优先 队列 。 例 如 ， 大 

小 为 13 的 优先 队列 可 以 用 森林 B3, B2, Bo 表示 。 我 们 可 以 把 这 种 表示 写成 1101, 它 不 仅 以 二 

进 制 表示 了 13, 而 且 也 表示 这 样 的 事实 ; 在 上 述 表 示 中 ，B3，B，，Bo 出 现 , 而 B, MRA. 
作为 一 个 例子 , 6 个 元 素 的 优先 队列 可 以 表示 为 图 6-35 中 的 形状 。 


(65) 


图 6-35 具有 6 个 元 素 的 二 项 队列 Hi 


6.8.2 二 项 队列 操作 ze UU 12) 
此 时 , 最 小 元 可 以 通过 搜索 所 有 的 树 的 根来 找 出 。 由 于 A 
(65 


最 多 有 log N 棵 不 同 的 树 ， 因 此 找到 最 小 元 的 时 间 可 以 为 
O(log N)。 男 外 ， 如果 我 们 记 住 当 最 小 元 在 其 他 操作 期 间 变 


化 时 更 新 它 , 那么 也 可 保留 最 小 元 的 信息 并 以 O(1) 时 间 执 4: ® < À 
行 这 种 操作 。 O 


合并 两 个 二 项 队列 在 概念 上 是 一 个 容易 的 操作 , 我 们 将 
通过 例子 描述 它 。 考 虑 两 个 二 项 队列 H, H, 它们 分 别 具 图 6-36 ”两 个 二 项 队列 Hl 和 H 
有 6 个 和 7 个 元 素 ， 见 图 6-36。 
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合并 操作 基本 上 是 通过 将 两 个 队列 加 到 一 起 来 完成 的 。 令 H 是 新 的 二 项 队列 。 由 于 H i 
有 高 度 为 0 的 二 项 树 而 H A, 因此 我 们 就 用 H 中 高 度 为 0 的 二 项 树 作 为 Hs 的 一 部 分 。 然 后 ， 
将 两 个 高 度 为 1 的 二 项 树 相 加 。 由 于 H 和 Ho 都 有 高 度 为 1 的 二 项 树 , 因此 可 以 将 它们 合并 ， 
让 大 的 根 成 为 小 的 根 的 子 树 , 从 而 建立 高 度 为 2 的 二 项 树 , 见 图 6-37。 这 样 ，H; 将 没有 高 度 为 1 
的 二 项 树 。 现 在 存在 3 棵 高 度 为 2 的 二 项 树 , 即 Hl 和 H, 原 有 的 两 棵 二 项 树 以 及 由 上 一 步 形成 
的 一 棵 二 项 树 。 我 们 将 一 棵 高 度 为 2 的 二 项 树 放 到 Hs 中 并 合并 其 他 两 个 二 项 树 , 得 到 一 棵 高 度 
为 3 的 二 项 树 。 由 于 日 | 和 FH, 都 没有 高 度 为 3 的 二 项 树 , 因此 该 二 项 树 就 成 为 H; 的 一 部 分 , 合 
并 结束 。 最 后 得 到 的 二 项 队列 如 图 6-38 所 示 。 


PaO) 23) (12) 
14) | DE — QU C (4) 
Q6) So 65 e) WA 


图 6-37 H, 和 H, P 图 6-38 二 项 队列 Hi: 合并 日 | 和 H, 的 结果 
两 棵 B, 树 合并 


由 于 几乎 使 用 任意 合理 的 实现 方法 合并 两 棵 二 项 树 均 花费 常数 时 间 ， 而 总 共存 在 O(log N) 
棵 二 项 树 , 因此 合并 操作 在 最 坏 情 形 下 花费 时 间 O(log N)。 为 使 该 操作 更 有 效 , 我 们 需要 将 这 
些 树 放 到 按照 高 度 排 序 的 二 项 队列 中 , 当然 这 是 一 项 简单 的 操作 。 

插 人 实际 上 就 是 特殊 情形 的 合并 ,因为 我 们 只 要 创建 一 棵 单 节点 树 并 执行 一 次 合并 即 可 。 
这 种 操作 的 最 坏 情 形 运行 时 间 也 是 O(log N)。 更 准确 地 说 ， 如 果 元 素 将 要 插 人 的 那个 优先 队列 
中 不 存在 的 最 小 的 二 项 树 是 B, 那么 运行 时 间 与 i+ 1 成 正比 。 例 如 ，FH3( 见 图 6-38) 缺 少 高 度 为 
1 的 二 项 树 , 因此 插 人 将 进行 两 步 终 止 。 由 于 二 项 队列 中 的 每 棵 树 均 以 概率 172 出 现 , 于 是 我 们 
预计 插入 在 两 步 后 终止 , 因此 , 平均 时 间 是 常数 。 不 仅 如 此 , 分 析 将 指出 , 对 一 个 初始 为 空 的 二 
项 队列 进行 N 次 insert 将 花费 O(N ) 最 坏 情 形 时 间 。 事 实 上 , 只 用 N - 1 次 比较 就 有 可 能 进行 该 
操作 ; 我 们 把 它 留 作 练习 。 

作为 一 个 例子 , 我 们 用 图 6-39 到 图 6-45 演示 通过 依 序 插入 1 到 7 来 构成 一 个 二 项 队列 。4 
的 插 和 人 展现 一 种 坏 的 情形 。 我 们 把 4 与 Bu 合并 , 得 到 一 棵 新 的 高 度 为 1 的 树 。 然 后 将 该 树 与 B, 
合并 , 得 到 一 棵 高 度 为 2 的 树 , 它 是 新 的 优先 队列 。 我 们 把 这 些 算 作 3 步 ( 两 棵 树 合 并 加 上 终止 
情形 )。 在 插 人 7 以 后 的 下 一 次 插入 又 是 一 个 坏 情形 , 需要 3 次 树 的 合并 操作 。 


so % Og 


图 6-39 在 1 插入 之 后 图 6-40 在 2 插入 之 后 图 6-41 在 3 插入 之 后 图 6-42 在 4 插 人 之 后 


a 


6-43 在 5 插入 之 后 图 6-44 在 6 插入 之 后 图 6-45 在 7 插入 之 后 


deleteMin 可 以 通过 首先 找 出 一 棵 具有 最 小 根 的 二 项 树 来 完成 。 令 该 树 为 BL. 并 令 原始 的 优 
先 队 列 为 H。 我 们 从 互 的 树 的 森林 中 除去 二 项 树 B., 形成 新 的 二 项 树 队 列 H o HRE B 的 根 ， 
得 到 一 些 二 项 树 Bo, By, ..., Be», 它们 共同 形成 优先 队列 Ho AH HAH’, 操作 结束 。 
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作为 例子 , 设 对 H, 执行 一 次 deleteMin, 它 在 图 6-46 中 表示 。 最 小 的 根 是 12, 因此 我 们 得 
到 图 6-47 和 图 6-48 中 的 两 个 优先 队列 H 和 HH。 合 并 H 和 HH 得 到 的 二 项 队列 是 最 后 的 答案 , 如 图 
6-49 所 示 。 


Hy: © Q3) 





图 6-46 二 项 队列 H, 


r Q3) 
GU "Q4 
(65) 


6-47 ”二 项 队列 H', AAR Bs 外 Hs 中 所 有 的 二 项 树 


iis 


图 6-48 二 项 队列 H': 除去 12 后 的 Bs 





图 6-49 deleteMin 应 用 到 H4 的 结果 


为 了 分 析 , 首先 注意 deleteMin 操作 将 原 二 项 队列 一 分 为 二 。 找 出 含有 最 小 元 素 的 树 并 创 
建 队列 H 各 HH 花费 时 间 O(log N)。 合 并 这 两 个 队列 又 花费 O(log N) 时 间 , 因此 ， 整 个 
deleteMin 操作 花费 时 间 O(log N)。 
6.8.3 二 项 队列 的 实现 

deleteMin 操作 需要 快速 找 出 根 的 所 有 子 树 的 能 力 , 因此 , 需要 一 般 树 的 标准 表示 方法 : 每 
个 节点 的 儿子 都 在 一 个 链表 中 , 而且 每 个 节点 都 有 一 个 对 它 的 第 一 个 儿子 (如 果 有 的 话 ) 的 引用 。 
该 操作 还 要 求 各 个 儿子 按照 它们 的 子 树 的 大 小 排序 。 我 们 还 需要 保证 合并 两 棵 树 容易 。 当 两 标 
树 被 合并 时 ,其 中 的 一 樟树 作为 儿子 被 加 到 另 一 棵 树 上 。 由 于 这 棵 新 树 将 是 最 大 的 子 树 , 因此 ， 
以 大 小 递减 的 方式 保持 这 些 子 树 是 有 意义 的 。 只 有 这 时 我 们 才能 够 有 效 地 合并 两 棵 二 项 树 从 而 
合并 两 个 二 项 队列 。 二 项 队列 将 是 二 项 树 的 数组 。 

总 而 言 之 , 二 项 树 的 每 一 个 节点 将 包含 数据 、 第 一 个 儿子 以 及 右 兄弟 。 二 项 树 中 的 各 个 儿子 
以 降 秩 次 序 排列 。 

图 6-51 解释 了 如 何 表示 图 6-50 中 的 二 项 队列 。 图 6-52 SAR Ee eae a eh 
及 二 项 队列 的 类 架构 。 

为 了 合并 两 个 二 项 队列 , 我 们 需要 一 个 例 程 来 合并 两 个 同样 大 小 的 二 项 树 。 6-53 表明 两 
个 二 项 树 合 并 时 链 是 如 何 变化 的 。 合 并 同样 大 小 的 两 棵 二 项 树 的 程序 很 简单 ， 见 图 6-54。 
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图 6-51 二 项 队列 Hs 的 表示 方式 


public class BinomialQueue<AnyType extends Comparable<? super AnyType>> 
( 
public BinomialQueue( ) 
( /* See online code */ } 
public BinomialQueue( AnyType item ) 
( /* See online code */ } 


public void merge( BinomialQueuecAnyType» rhs ) 
( /* Figure 6.55 */ ) 
public void insert( AnyType x ) 
{ merge( new BinomialQueue<AnyType>( x ) ); ) 
public AnyType findMin( ) 
( /* See online code */ } 
public AnyType deleteMin( ) 
{ /* Figure 6.56 */ } 


public boolean isEmpty( ) 

( return currentSize == 0; } 
public void makeEmpty( ) 

{ /* See online code */ } 


private static class Node<AnyType> 
( 
// Constructors 
Node( AnyType theElement ) 
( this( the£lement, null, null ); ) 


Node( AnyType theElement, Node«AnyType» lt, Node<AnyType> nt ) 
{ element = theElement; leftChild = 1t; nextSibling = nt; ) 


AnyType element; // The data in the node 
Node<AnyType> leftChild; // Left child 
Node<AnyType> nextSibling; // Right child 





图 6-52 二 项 队列 类 架构 及 节点 定义 
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private static final int DEFAULT TREES = 1; 


private int currentSize; // # items in priority queue 
private Node<AnyType> [ ] theTrees; // An array of tree roots 


private void expandTheTrees( int newNumTrees ) 
( /* See online code */ } 
private Node<AnyType> combineTrees( Node<AnyType> tl, Node«AnyType» t2 ) 


{ /* Figure 6.54 */ } 


private int capacity( ) 

( return ( 1 << theTrees.length ) - 1; | 
private int findMinIndex( ) 

( /* See online code */ ] 





6-52 (4%) 
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图 6-53 合并 两 棵 二 项 树 


— 

* Return the result of merging equal-sized tl and t2. 

ui 

private Node<AnyType> combineTrees( Node<AnyType> tl, Node<AnyType> t2 ) 
{ 


if( tl.element.compareTo( t2.element ) > 0 ) 
return combineTrees( t2, t1 ); 

t2.nextSibling = tl.leftChild; 

tl.leftChild = t2; 

return t1; 


Oe mena X UNS 


— — 





图 6-54 合并 同样 大 小 的 两 棵 二 项 树 的 例 程 


现在 我 们 介绍 merge 例 程 的 简单 实现 。H,| 由 当前 的 对 象 表示 而 H, 则 用 rhs 表示 。 该 例 程 
将 H MH AH, 把 合并 结果 放 人 H 中 , 并 清空 H,。 在 任意 时 刻 我 们 在 处 理 的 是 秩 (rank) 为 i 
的 那些 树 。z| Mt, 分 别 是 H 和 H2 中 的 树 , 而 carry 是 从 上 一 步 得 来 的 树 ( 它 可 能 是 null), M 
RA i 的 树 以 及 秩 为 i+ 1 的 carry 的 树 所 形成 的 树 , 依赖 于 8 种 可 能 情形 中 的 每 一 种 。 程 序 见 图 
6-55。 对 程序 的 改进 在 练习 6.35 中 提出 。 

二 项 队列 的 deleteMin 例 程 在 图 6-56 中 给 出 。 

我 们 可 以 将 二 项 队列 扩展 到 支持 二 叉 堆 所 允许 的 某 些 非 标准 的 操作 , 诸如 decreaseKey 和 
delete 等 ,前提 是 受到 影响 的 元 素 的 位 置 已 知 。decreaseKey 是 一 个 percolateUp， 如 果 我 们 将 一 
个 域 加 到 每 个 节点 上 存储 其 父 链 , 那么 这 个 操作 可 以 在 时 间 O(log N) 内 完成 。 一 次 任意 的 
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delete 可 以 通过 结合 decreaseKey 和 deleteMin 而 以 时 间 O(log N) SER. 


Tu 
* Merge rhs into the priority queue. 
* rhs becomes empty. rhs must be different from this. 
* @param rhs the other binomial queue. 
at 
public void merge( BinomialQueue<AnyType> rhs ) 
{ 


Oo ^41 DUN AW DH 


if( this == rhs ) // Avoid aliasing problems 
return; 


currentSize += rhs.currentSize; 


if( currentSize > capacity( ) ) 

( 
int maxLength = Math.max( theTrees.length, rhs.theTrees.length ); 
expandTheTrees( maxLength * 1 ); 


) 


Node<AnyType> carry = null; 
for( int i = 0, j = 1; j <= currentSize; it+, j *-2) 
( 
Node<AnyType> tl = theTrees[ i ]; 
Node<AnyType> t2 = i < rhs.theTrees.length ? rhs.theTrees[ i ] : null; 


int whichCase = tl == null ? 0: 1; 
whichCase += t2 == null ? 0: 2; 
whichCase += carry == null ? 0: 4; 


switch( whichCase ) 
{ 
case 0: /* No trees */ 
case 1; /* Only this */ 
break; 
case 2: /* Only rhs */ 
theTrees[ i ] = t2; 
rhs.theTrees[ i ] = null; 
break; 
case 4: /* Only carry */ 
theTrees[ i ] = carry; 
carry » null; 
break; 
case 3: /* thís and rhs */ 
carry = combineTrees( tl, t2 ); 
theTrees[ i ] = rhs.theTrees[ i ] = null; 
break; 
case 5: /* this and carry */ 
carry = combineTrees( tl, carry ); 





6-55 合并 两 个 优先 队列 的 例 程 


Download at http:// www.pinb5i.com/ 


176 


WO 00 NAU AUNA 





HOF 


theTrees[ i ] = null; 
break; 

case 6: /* rhs and carry */ 
carry = combineTrees( t2, carry ); 
rhs.theTrees[ i ) = null; 
break; 

case 7: /* All three */ 
theTrees[ i ] = carry; 
carry = combineTrees( t1, 
rhs.theTrees[ i ] = nul!; 
break; 


) 


for( int k = 0; k < rhs.theTrees.length; k** ) 
rhs.theTrees[ k ] = null; 
rhs.currentSize = 0; 





图 6-55 ( 续 ) 


/** 


* Remove the smallest item from the priority queue. 
* @return the smallest item, or throw UnderflowException if empty. 
* 
public AnyType deleteMin( ) 
{ 
if( isEmpty( ) ) 
throw new UnderflowException( ); 


int minIndex = findMinIndex( ); 
AnyType minItem = theTrees[ minIndex ].element; 


Node<AnyType> deletedTree = theTrees[ minIndex ].leftChild; 


// Construct H'' 
BinomialQueue<AnyType> deletedQueue = new BinomialQueue«AnyType»( ); 
deletedQueue.expandTheTrees( minIndex + 1 ); 


deletedQueue.currentSize = ( 1 << minIndex ) - 1; 
for( int j = minIndex - 1; j >= 0; j-- ) 
{ 
deletedQueue.theTrees[ j ] = deletedTree; 
deletedTree = deletedTree.nextSibling; 
deletedQueue.theTrees[ j ].nextSibling = null; 
) 


// Construct H' 
theTrees[ minIndex ] = null; 
currentSize -= deletedQueue.currentSize + 1; 


merge( deletedQueue ); 


6-56 二 项 队列 的 deleteMin, 用 到 findMinIndex 方法 
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33 return minItem; 
34 } 


图 6-56 ( 续 ) 


6.9 标准 库 中 的 优先 队列 


在 Java 1.5 之 前 , Java 类 库 中 不 存在 对 优先 队列 的 支持 。 然 而 在 Java 1.5 中 出 现 了 泛 型 类 
PriorityQueue, 在 该 类 中 insert, findMin 和 deleteMin 通过 调用 add, element 和 remove 而 被 表 
AR. PriorityQueue 对 象 可 以 通过 无 参数 、 一 个 比较 器 、 或 另 一 个 兼容 的 集合 构造 出 来 。 

由 于 优先 队列 有 许多 有 效 的 实现 方法 ,因此 该 类 库 的 设计 者 们 没有 选择 让 PriorityQueue 成 为 
一 个 接口 。 虽 然 如 此 ，PriorityQueve 在 Java 1.5 中 的 实现 对 大 多 数 优 先 队列 的 应 用 还 是 足够 的 。 


小 结 


本 章 介 绍 了 优先 队列 ADT 的 各 种 实现 方法 和 用 途 。 标 准 的 二 叉 堆 实 现 具有 简单 和 快速 的 优 
点 。 它 不 需要 链 , 只 需要 常量 的 附加 空间 , 且 有 效 地 支持 优先 队列 的 操作 。 

我 们 考虑 了 附加 的 merge 操作 , 开发 了 三 种 实现 方法 , 每 种 都 有 其 独到 之 处 。 左 式 堆 是 递归 
威力 的 完美 实例 。 斜 堆 则 代表 缺少 平衡 原则 的 一 种 重要 的 数据 结构 。 它 的 分 析 是 有 趣 的 , 我 们 
将 在 第 11 章 进行 。 二 项 队列 指出 一 个 简单 的 想法 如 何 能 够 用 来 达到 好 的 时 间 界 。 

我 们 还 看 到 优先 队列 的 几 个 用 途 , 从 操作 系统 的 工作 调度 到 事件 模拟 。 我 们 将 在 第 7、9 和 
10 章 再 次 看 到 它们 的 应 用 。 


练习 


6.1 ”操作 insert 和 findMin 都 能 以 常数 时 间 实 现 吗 ? 
6.2 a. 写 出 一 次 一 个 地 将 10、12、1、14、6、5、8、15、3、9、7、4、11、13 和 2 插入 到 一 个 初 
始 为 空 的 二 叉 堆 中 的 结果 。 
b. 写 出 使 用 上 述 相同 的 输入 通过 线性 时 间 算 法 建立 一 个 二 叉 堆 的 结果 。 
6.3 “” 写 出 对 上 面 练习 中 的 堆 执行 3 次 deleteMin 操作 的 结果 。 
6.4 “N 个 元 素 的 完全 二 叉 树 用 到 数组 位 置 1 到 N. PERE AML te ean ee A — 
叉 树 。 对 于 下 列 的 情况 确定 数组 必须 要 多 大 ; 
a. 一 棵 有 两 个 附加 层 ( 即 它 是 非常 轻微 地 不 平衡 ) 的 二 叉 树 
b. 在 深度 2 log N 处 有 一 个 最 深 的 节点 的 二 叉 树 
c. 在 深度 4.1 log N 处 有 一 个 最 深 的 节点 的 二 叉 树 
d. 最 坏 情 形 的 二 叉 树 
6.5 ”通过 把 被 插入 项 的 引用 放 在 位 置 0 处 重 写 BinaryHeap 的 inset 方法 。 
6.6 ”在 图 6-13 的 大 的 堆 中 有 多 少 节点 ? 
6.7 a. 证 明 对 于 二 叉 堆 , buildHeap 至 多 在 元 素 间 进 行 2N -2 次 比较 。 
b. 证 明 8 个 元 素 的 堆 可 以 通过 堆 元 素 间 的 8 次 比较 构成 。 


"c. 给 出 一 个 算法 , Mg N+ O(log N) 次 元 素 比 较 构建 一 个 二 又 堆 。 


6.8 ”证 明 下 列 关于 堆 中 的 最 大 项 的 结论 : 
a. 它 必然 在 一 片 树叶 上 。 
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b. 恰好 存在 [| N/2 1 片 树叶 。 
c. 为 找 出 它 必 须 考查 每 一 片 树叶 。 
*'6.9 WH, 在 -一 个 大 的 完全 堆 ( 可 以 假设 N=2 - 1D) 中 第 有 个 最 小 元 的 期 望 深度 以 log k 为 界 。 
6.10 “a. 给 出 一 个 算法 找 出 二 叉 堆 中 小 于 某 个 值 X 的 所 有 节点 。 你 的 算法 应 该 以 OK ) 时 间 
运行 , 其 中 , K 是 输出 的 节点 的 个 数 。 
b. 该 算法 可 以 扩展 到 本 章 讨论 过 的 任何 其 他 堆 结 构 吗 ? 
* c. 给 出 一 个 算法 , 最 多 使 用 大 约 INA 次 比较 找 出 二 叉 堆 中 任意 的 项 X. 
*6.11 提出 一 个 算法 , 以 O(M + log N loglog N) 时 间 将 M 个 节点 插入 到 NN 个 元 素 的 二 叉 堆 
中 。 证 明 该 算法 的 时 间 界 。 
6.12 ”编写 一 个 程序 输入 N 个 元 束 并 
a. 将 它们 一 个 一 个 地 插 人 到 一 个 堆 中 。 
b. 以 线性 时 间 建 立 一 个 堆 。 
比较 这 两 个 算法 对 于 已 排序 、 反 序 、 以 及 随机 输入 的 运行 时 间 。 
6.13 每 个 deleteMin 操作 在 最 坏 情 形 下 使 用 2log N 次 比较 。 
"a. 提出 一 种 方案 使 得 deleteMin 操作 只 使 用 log N + loglog N+ O(1) 次 元 素 间 的 比较 。 
这 未 必 就 意味 着 较 少 的 数据 移动 。 
=b. 扩展 你 在 (a) 部 分 中 的 方案 使 得 只 执行 log N + logloglog N + "QUUM 比较 。 
** c. 你 能 够 把 这 种 想法 推 向 多 远 ? | 
d. 在 比较 中 节省 下 的 资源 能 否 补 偿 你 的 算法 增加 的 复杂 性 ? 
6.14 ”如 果 一 个 4d- 堆 作为 一 个 数组 存储 , 对 位 于 位 置 i 的 项 , 其 父亲 和 儿子 都 在 哪里 ? 
6.15 设 一 个 d- 堆 初始 时 有 NN 个 元 素 , 而 我 们 需要 对 其 执行 M 次 percolateUp 和 N 次 
deleteMin, 
a. 用 M. N 和 4 表示 的 所 有 操作 的 总 运行 时 间 是 多 少 ? 
b. WR d =2, 所 有 的 堆 操作 的 运行 时 间 是 多 少 ? 
c. 如 果 d = G(N), 总 运行 时 间 是 多 少 ? 
“d. 对 d 作 什 么 选择 将 使 总 运行 时 间 最 小 ? 
6.16 设 二 叉 堆 用 显 式 链表 示 。 给 出 一 个 简单 算法 来 找 出 位 于 位 置 i 上 的 树 节点 。 
6.17 设 二 叉 堆 用 显 式 链表 示 。 考 虑 将 二 叉 堆 lhs 和 rh 合并 的 问题 。 假 设 这 两 个 二 叉 堆 均 
为 满 的 完全 树 , 分 别 包 含 2: 一 1 和 2 一 1 个 节点 。 
a. Hl=r, 给 出 合并 这 两 个 堆 的 O(log N ) 算 法 。 
b. #ll-r|=1, 给 出 合并 这 两 个 堆 的 O(log N) 算 法 。 
c. 给 出 合并 这 两 个 堆 的 与 1 和 7 无关 的 O(log N) 算 法 。 
6.18 最 小 -最 大 堆 (min-max heap) 是 支持 两 种 操作 deleteMin 和 deleteMax 的 数据 结构 ,每 个 
操作 用 时 O(log N)。 该 结构 与 二 叉 堆 相同 , 不 过 , 其 堆 序 性 质 为 : 对 于 在 偶数 深度 上 
的 任意 节点 X, 存储 在 X 上 的 元 素 小 于 它 的 父亲 但 是 大 于 它 的 祖父 ( 当 这 是 有 意义 的 时 
R), 对 于 奇数 深度 上 的 任意 节点 X, 存储 在 X 上 的 元 素 大 于 它 的 父亲 但 是 小 于 它 的 祖 
40, 见 图 6-57. 
. 如 何 找到 最 小 元 和 最 大 元 ? 
' b. 给 出 一 个 算法 将 一 个 新 节点 插入 到 该 最 小 -最 大 堆 中 。 
. 给 出 一 个 算法 执行 deleteMin 和 deleteMax。 
* d. 你 能 否 以 线性 时 间 建 立 一 个 最 小 最 大 堆 ? 


* 
aon co 名 
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图 6-57 ”最 小 -最 大 堆 


"e. 设 我 们 想 要 支持 操作 deleteMin, deleteMax 以 及 merge。 提 出 一 种 数据 结构 以 时 间 


O(log N) 支 持 所 有 的 操作 。 
合并 图 6-58 中 的 两 个 左 式 堆 。 





6-58 练习 6.19 和 6.26 的 输入 


写 出 依 序 将 关键 字 1 到 15 捅 人 到 一 个 初始 为 空 的 左 式 堆 中 的 结果 。 

证 明 下 述 结论 成 立 或 证 明 其 不 成 立 : 如 果 将 关键 字 1 到 2* -1 依 序 插 人 到 一 个 初始 为 空 
的 左 式 堆 中 , 那么 结果 形成 一 棵 理想 平衡 树 (perfectly balanced tree)。 

给 出 生成 最 佳 左 式 堆 的 输入 的 例子 。 

a. 左 式 堆 能 否 有 效 地 支持 decreaseKey? 

b. 完成 该 功能 需要 哪些 改变 (如 果 可 能 的 话 )? 

从 左 式 堆 中 一 个 已 知 位 置 删 除 节 点 的 一 种 方法 是 使 用 懒惰 策略 。 为 了 删除 一 个 节点 ， 
只 要 将 其 标记 为 被 删除 中 可 。 当 执行 一 个 findMin 或 deleteMin 时 , 若 标 记 根 节点 被 删 
除 则 存在 一 个 潜在 的 问题 , 因为 此 时 该 节点 必须 被 实际 删除 且 需 要 找到 实际 的 最 小 元 ， 
这 可 能 涉及 到 删除 其 他 一 些 已 做 标记 的 节点 。 在 该 策略 中 , 这 些 delete 花费 一 个 单位 ， 
但 一 次 deleteMin 或 findMin 的 开销 却 依赖 于 被 作 删 除 标 记 的 节点 的 个 数 。 设 在 一 次 
deleteMin 或 findMin 后 作 标 记 的 节点 比 操作 前 减少 & 个。 


*a. 说 明 如 何以 O(k log N ) 时 间 执 行 deleteMin, 
"b. 提出 一 种 实现 方法 , 通过 分 析 ,证明 执行 deleteMin 的 时 间 为 O(k log (2N/&))。 


我 们 可 以 以 线性 时 间 对 一 些 左 式 堆 执行 buildHeap 操作 : 把 每 个 元 素 当 作 是 单 节 点 左 式 
WE, 把 所 有 这 些 堆放 到 一 个 队列 中 , 之 后 , 让 两 个 堆 出 队 , 合并 它们 , 再 将 合并 结果 入 
BA, 直到 队列 中 只 有 一 个 堆 为 止 。 

a. 证 明 该 算法 在 最 坏 情形 下 为 O(NN)。 

b. 为 什么 该 算法 优 于 课文 中 描述 的 算法 ? 
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6.26 合并 图 6.58 中 的 两 个 斜 堆 

6.27 写 出 将 关键 字 1 到 15 依 序 插 人 到 一 斜 堆 内 的 结果 。 

6.28 证 明 下 述 结 论 成 立 或 不 成 立 : 如 果 将 关键 字 1 到 2* - 1 依 序 搬 人 到 一 个 初始 为 空 的 斜 堆 
中 , 那么 结果 形成 一 棵 理想 平衡 树 (perfectly balanced tree) 。 

6.29 使 用 标准 的 二 叉 堆 算法 可 以 建立 一 个 N 个 元 素 的 斜 堆 。 我 们 能 和 否 使 用 练习 6.25 中 描 
述 的 同样 的 合并 策略 用 于 斜 堆 而 得 到 O(N) 运 行 时 间 ? 

6.30 证 明 二 项 树 B, 以 二 项 树 Bu，B，. ..，B ,作为 其 根 的 儿子 。 


6.31 证 明 高 度 为 上 的 二 项 树 在 深度 < 有 | : 个 节点 。 
6.32 将 图 6-59 中 的 两 个 二 项 队列 合并 。 


(3) © 
Dae 





65) 


EE 


图 6-59 练习 6.32 中 的 输入 


6.33 a. WEH, 向 初始 为 空 的 二 项 队列 进行 N 次 insert 在 最 坏 情 形 下 花费 O(N) 的 时 间 。 
b. 给 出 一 个 算法 来 建立 有 N 个 元 素 的 二 项 队列 , 在 元 素 间 最 多 使 用 N-1 次 比较 。 
"c. 提出 一 个 算法 , U OCM + log N) 最 坏 情形 运行 时 间 将 M 个 节点 插 人 到 N 个 元 素 的 
二 项 队列 中 。 证 明 该 算法 的 界 。 
6.34 写 出 一 个 高 效 的 例 程 使 用 二 项 队列 来 完成 insert 操作 。 不 要 调用 merge 方法。 
6.35 ”对 于 二 项 队列 : 
a. 如 果 没 有 树 留 在 H, PH carry 树 为 null, 则 修改 merge 例 程 以 终止 合并 。 
b. 修改 merge 使 得 较 小 的 树 总 被 合并 到 较 大 的 树 中 。 
"6.36 ”假设 我 们 将 二 项 队列 扩充 为 允许 每 个 结构 同一 高 度 至 多 有 两 棵 树 。 我 们 能 否 在 其 他 操 
作 保 留 为 O(log N) 时 得 到 插 人 为 O(1) 的 最 坏 情形 时 间 ? 
6.37 设 有 许多 盒子 , 每 个 盒子 都 能 容纳 总 重量 C, m i), in, i3,°°, in IE w, w, 
w3, 7, Wyo 现在 想 要 把 所 有 的 物品 包装 起 来 , 但 任 一 盒子 都 不 能 放置 超过 其 容量 的 
BY, 而 且 要 使 用 尽量 少 的 盒子 。 例 如 , 车 C=5, 物品 分 别 重 2, 2, 3, 3, 则 我 们 可 用 
两 个 盒子 解决 该 问题 。 
一 般 说 来 , 这 个 问题 很 困难 , 沿 不 知 有 高 效 的 解决 方案 。 编 写 程序 高 效 地 实现 下 列 各 近 
似 解 法 : | 
* a. 将 重 物 放 人 能 够 承受 其 重量 的 第 一 个 盒子 内 (如 果 没 有 盒子 拥有 足够 的 容量 就 开辟 
一 个 新 的 盒子 )( 该 方法 以 及 后 面 所 有 的 方法 都 将 得 出 3 个 盒子 , 这 不 是 最 优 的 结 
果 )。 
b. 把 重 物 放 人 对 其 有 最 大 空间 的 盒子 内 。 
' c. 把 重 物 放 人 能够 容纳 它 而 又 不 过 载 的 装填 得 最 满 的 盒子 中 。 
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"d 这 些 方法 有 通过 将 重 物 按 重量 预先 排序 而 功能 得 到 增强 的 吗 ? 
6.38 ” 设 我 们 想 要 将 操作 decreasehllKeys(A) 添 加 到 堆 的 指令 系统 中 。 该 操作 的 结果 是 堆 中 
所 有 的 关键 字 都 将 它们 的 值 减少 量 A。 对 于 你 所 选择 的 堆 的 实现 方法 , 解释 所 作 的 必要 
的 修改 使 得 所 有 其 他 操作 都 保持 它们 的 运行 时 间 而 decreaseAllKeys 以 O(1) 运 行 。 
6.39 ”两 个 选择 算法 中 哪个 具有 更 好 的 时 间 界 ? 
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第 7 章 HF Jm 


在 这 一 章 , 我 们 讨论 元 素数 组 的 排序 问题 。 为 简单 起 见 , 假设 例子 中 的 数组 只 包含 整数 , 当 
然 我 们 的 程序 也 允许 更 一 般 的 对 象 。 对 于 本 章 的 大 部 分 内 容 , 我 们 还 假设 整个 排序 工作 能 够 在 
主 存 中 完成 , 因此 , 元 素 的 个 数 相对 来 说 比较 小 (小 于 几 百 万 )。 当 然 , 不 能 在 主 存 中 完成 而 必须 
在 磁盘 或 磁带 上 完成 的 排序 也 相当 重要 。 这 种 类 型 的 排序 叫做 外 部 排序 (external sorting), 将 在 
本 章 末 尾 进 行 讨 论 。 

我 们 对 内 部 排序 的 考查 将 指出 : 

。 存在 几 种 容易 的 算法 以 O(N?) 完 成 排序 , 如 插入 排序 。 

© 有 一 种 算法 叫做 希 尔 排 序 (Sellsort) ， 它 编程 非常 简单 , 以 o( V7?) 运行 , 并 在 实践 中 很 有 效 。 

。 存在 一 些 稍微 复杂 的 O(N log N) 的 排序 算法 。 

。 任何 通用 的 排序 算法 均 需 要 Q(N log N) 次 比较 。 

本 章 的 其 余部 分 将 描述 和 分 析 各 种 排序 算法 。 这 些 算法 包含 一 些 有 趣 的 和 重要 的 代码 优化 
和 算法 设计 思想 。 排 序 也 是 使 得 分 析 能 够 得 以 精确 地 进行 的 范例 。 预 先 说 明 , 在 适当 的 时 机 , 我 
们 将 尽 可 能 多 地 做 一 些 分 析 。 


7.1 预备 知识 


我 们 描述 的 算法 都 将 是 可 以 互 换 的 。 每 个 算法 都 将 接收 包含 一 些 元 素 的 数组 ; 假设 所 有 的 
数组 位 置 都 包含 要 被 排序 的 数据 。 我 们 还 假设 N 是 传递 到 排序 例 程 的 元 素 的 个 数 。 

正如 1.4 节 所 描述 的 , 被 排序 的 对 象 属 于 Comparable 类 型 。 因 此 我 们 使 用 CompareTo 方法 对 
输入 数据 施加 相 容 的 排序 。 除 (引用 ) 赋 值 运算 外 ,这 是 仅 有 的 允许 对 输入 数据 进行 的 操作 。 在 
这 些 条 件 下 的 排序 叫做 基于 比较 的 排序 (comparison-based sorting)。 在 默认 的 排序 没有 或 不 可 接 
受 的 情况 下 , 我 们 很 容易 用 Comparator 来 重 写 排序 算法 。 


7.2 插入 排序 


7.2.1 算法 

最 简单 的 排序 算法 之 一 是 插入 排序 (insertion sort)。 插 入 排序 由 N - 1 趟 排序 组 成 。 对 于 
bp=1 到 N-1l 趟 , 插入 排序 保证 从 位 置 0 到 位 置 p 上 的 元 素 为 已 排序 状态 。 插 人 排序 利用 了 这 
样 的 事实 : 已 知 位 置 0 到 位 置 p -1 上 的 元 素 已 经 处 于 排 过 序 的 状态 。 图 7-1 显示 一 个 数组 样 例 
在 每 一 趟 插入 排序 后 的 情况 。 





7-1 每 趟 后 的 插 人 排序 
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图 7-1 表达 了 一 般 的 策略 。 在 第 p HH, 我 们 将 位 置 p 上 的 元 素 向 左 移动 ,直到 它 在 前 pl 
个 元 素 中 的 正确 位 置 被 找到 的 地 方 。 图 7-2 中 的 程序 实现 这 种 策略 。 第 12 行 到 第 15 行 实现 数 
据 移动 而 没有 明显 地 使 用 交换 。 位 置 p 上 的 元 素 储存 于 tmp, 而 (在 位 置 p 之 前 ) 所 有 更 大 的 元 素 
都 被 向 右 移动 一 个 位 置 。 然 后 tup 被 置 于 正确 的 位 置 上 。 这 是 与 在 二 叉 堆 实 现时 所 用 到 的 相同 
技巧 。 


** 

* Simple insertion sort. 

* @param a an array of Comparable items, 

* 
— static «AnyType extends Comparable«? super AnyType>> 
void insertionSort( AnyType {f ] a ) 

{ 

int j; 


1 
2 
3 
4 
5 
6 
7 
8 
9 


for( int p = 1; p « a.length; p++ ) 
{ 
AnyType tmp = a[ p ]; 
for( j = p; j > 0 && tmp.compareTo( a[ j - 1] ) < 0; j-- ) 
aljjJealLj-1]; 
a[ j ] = tmp; 
} 





} 
图 7-2 插入 排序 例 程 


7.2.2 插入 排序 的 分 析 

由 于 扒 套 循环 的 每 一 个 都 花费 N 次 迭代 ,因此 插入 排序 为 O(N’), 而 且 这 个 界 是 精确 的 ， 
因为 以 反 序 的 输入 可 以 达到 该 界 。 精 确 计 算 指 出 , 图 7-2 内 循环 中 元 素 的 比较 次 数 对 于 p 的 每 
个 值 最 多 是 p+ 1 次 。 对 所 有 的 p 求 和 得 到 总 数 为 


N 
31122434444 N= O(N’) 


另 一 方面 , 如 果 输 入 数据 已 预先 排序 , 那么 运行 时 间 为 O (ND, 因为 内 层 for 循环 的 检 
测 总 是 立即 判定 不 成 立 而 终止 。 事 实 上 , 如 果 输 入 几乎 被 排序 (该 术语 将 在 下 一 节 更 严格 地 定 
3), 那么 插入 排序 将 运行 得 很 快 。 由 于 这 种 变化 差别 很 大 , 因此 值得 我 们 去 分 析 该 算法 平均 情 
形 的 行为 。 实 际 上 ， 和 各 种 其 他 排序 算法 一 样 , 插入 排序 的 平均 情形 也 是 @(N?), 详 见 下 节 的 分 
析 。 | 


7.3 一 些 简单 排序 算法 的 下 界 


成 员 是 数 的 数组 的 逆序 (inversion) 即 具有 性 质 i<j 但 ali] >a[j] 的 序 偶 (a[fi],a[j])。 在 上 节 
的 例子 中 , 输入 数据 34, 8, 64, 51, 32, 21 有 9 PF, 即 (34, 8), (34, 32), (34, 21), (64, 
51), (64, 32), (64, 21), (51, 32), (51, 21) 以 及 (32, 21)。 注 意 , 这 正好 是 需要 由 插入 排序 ( 隐 
含 ) 执 行 的 交换 次 数 。 情 况 总 是 这 样 , 因为 交换 两 个 不 按 顺 序 排列 的 相 邻 元 素 恰好 消除 一 个 逆 
HF, 而 一 个 排 过 序 的 数组 没有 逆序 。 由 于 算法 中 还 有 O(N) 量 的 其 他 工作 , 因此 插入 排序 的 运行 
时 间 是 OU +N), 其 中 了 为 原始 数组 中 的 逆序 数 。 于 是 , 若 逆序 数 是 O(N), 则 插入 排序 以 线 
性 时 间 运 行 。 
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可 以 通过 计算 排列 中 的 平均 逆序 数 得 出 插入 排序 平均 运行 时 间 的 精确 的 界 。 如 往常 一 样 ， 
定义 平均 是 一 个 困难 的 课题 。 我 们 将 假设 不 存在 重复 元 素 ( 如 果 我 们 允许 重复 , 那么 甚至 连 重复 
的 平均 次 数 究竟 是 什么 都 不 清楚 )。 利 用 该 假设 , 可 设 输入 数据 是 前 N 个 整数 的 某 个 排列 (因为 
只 有 相对 顺序 才 是 重要 的 ) 并 设 所 有 的 排列 都 是 等 可 能 的 。 在 这 些 假设 下 , 我 们 有 如 下 定理 : 

定理 7.1 N 个 互 异 数 的 数组 的 平均 逆序 数 是 N(N 一 1)/4。 

证 阴 : 

对 于 元 素 的 任意 表 列 L ,考虑 其 反 序 表 列 L,。 上 例 中 的 反 序 表 列 是 21, 32, 51, 64, 8, 34。 
考虑 该 表 列 中 任意 两 个 元 素 的 序 偶 (x，y), yr. BR, 在 恰好 LAL, 的 一 个 中 该 序 偶 表 示 一 
SWF. TERA L 和 它 的 反 序 表 列 L, 中 序 偶 的 总 个 数 为 N(N 一 1)/2。 因 此 , 平均 表 列 有 该 量 的 
一 半 , Bl N(N-1)4 个 逆序 。 E 

这 个 定理 意味 着 插入 排序 平均 是 二 次 的 , 同时 也 提供 了 只 交换 相 邻 元 素 的 任何 算法 的 一 个 
很 强 的 下 界 。 

定理 7.2 通过 交换 相 邻 元 素 进行 排序 的 任何 算法 平均 都 需要 Q(N2) 时 间 。 

WERA: 

初始 的 平均 逆序 数 是 N(N -1)/4= 0Q(N?), 而 每 次 交换 只 减少 一 个 逆序 , 因此 需要 NAN?) 
次 交换 。 图 

这 是 证 明 下 界 的 一 个 例子 , 它 不 仅 对 隐 含 地 执行 相 邻 元 素 交 换 的 插入 排序 有 效 , 而 且 对 诸如 
冒 泡 排 序 和 选择 排序 等 其 他 一 些 简单 算法 也 是 有 效 的 , 不 过 这 些 算法 我 们 将 不 在 这 里 描述 。 事 
KE, 它 对 一 整 类 只 进行 相 邻 元 素 的 交换 的 排序 算法 , 包括 那些 未 被 发 现 的 算法 ,都 是 有 效 的 。 
正 因为 如 此 , 这 个 证 明 在 经 验 上 是 不 能 被 认可 的 。 虽 然 这 个 下 界 的 证 明 非 常 简 单 , 但 是 一 般 说 来 
证 明 下 界 要 比 证 明 上 界 复杂 得 多 , 在 某 些 情形 下 其 至 有 些 像 魔术 。 

这 个 下 界 告诉 我 们 , 为 了 使 一 个 排序 算法 以 亚 二 次 (subquadratic) 或 O(N?) 时 间 运 行 , 必须 
执行 一 些 比 较 , 特别 是 要 对 相距 较 远 的 元 素 进 行 交 换 。- :个 排序 算法 通过 删除 逆序 得 以 向 前 进 
行 , 而 为 了 有 效 地 进行 , 它 必 须 使 每 次 交换 删除 不 止 一 个 逆序 。 


7.4 和 希 尔 排序 


希 尔 排 序 (Shellsort) 的 名 称 源 于 它 的 发 明 者 Donald Shell， 该 算法 是 冲破 二 次 时 间 屏 障 的 第 一 
批 算法 之 一 , Ad, 直到 它 最 初 被 发 现 的 若干 年 后 才 证 明了 它 的 亚 二 次 时 间 界 。 正 如 上 节 所 提 到 
的 , 它 通过 比较 相距 一 定 间隔 的 元 素来 工作 ; 各 趟 比较 所 用 的 距离 随 着 算法 的 进行 而 减 小 , 直到 
只 比较 相 邻 元 素 的 最 后 一 趟 排序 为 止 。 由 于 这 个 原因 , 和希 尔 排序 有 时 也 叫做 缩减 增 量 排序 (di- 
minishing increment sort) 。 

希 尔 排序 使 用 一 个 序列 hi, ho, -.., hi, 叫做 增 量 序列 (increment sequence). RÆ A, = 1, 
任何 增 量 序列 都 是 可 行 的 , 不 过 ,有 些 增 量 序列 比 另 外 一 些 增 量 序列 更 好 (后 面 我 们 将 讨论 这 个 
问题 ) 。 在 使 用 增 量 A, 的 一 趟 排序 之 后 , 对 于 每 一 个 i RMA ali Salit hi]( 此 时 该 不 等 式 
是 有 意义 的 ); 所 有 相隔 A, 的 元 素 都 被 排序 。 此 时 称 文件 是 A, 排序 的 (有 -sorted )}。 例 如 。 图 7-3 
显示 在 几 趟 希 尔 排序 后 数组 的 情况 。 和 硕 尔 排序 的 一 个 重要 性 质 是 (我 们 只 叙述 而 不 证 明 )， 一 个 
hy 排序 的 文件 (然后 将 是 hi _ | 排序 的 ) 保 持 它 的 A, 排序 性 。 事 实 上 , 假如 情况 不 是 这 样 的 话 , 那 
么 该 算法 很 可 能 也 就 没什么 价值 了 ,因为 前 面 各 趟 排序 的 成 果 就 会 被 后 面 各 趟 排序 给 打 乱 。 

h, 排序 的 一 般 做 法 是 , 对 于 hi ,hi + 1,…,N 一 1 中 的 每 一 个 位 置 i, 把 其 上 的 元 素 放 到 i, i 
一 h，i 一 2hi，… 中 的 正确 位 置 上 。 虽 然 这 并 不 影响 最 终结 果 , 但 通过 仔细 观察 可 以 发 现 , 一 趟 A, 
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35 11 | 28 | 12 | 41 { 75 | 15 | 96 | 58181 | 94 | 95 
28 | 12 | 11 | 35] 15 | 41 | 58 | 17 | 94 | 75 | 81 | 96 1 95 
11 | 12 | 15 | 17 | 28 | 35 | 41 | 58 | 75 | 81 | 94 | 95 | 96 


图 7-3 和 希 尔 排序 每 趟 之 后 的 情况 


排序 的 作用 就 是 对 hi 个 独立 的 子 数组 执行 一 次 插入 排序 。 当 我 们 分 析 希 尔 排 序 的 运行 时 间 时 ， 
这 个 观察 结果 将 是 很 重要 的 。 

增 量 序列 的 一 个 流行 (但 是 不 好 ) 的 选择 是 使 用 Shell 建议 的 序列 : h, =LN2SA Ay — Lh 
2J( 这 不 是 用 在 图 7-3 的 例子 中 的 序列 )。 图 7-4 包含 一 个 使 用 该 序列 实现 希 尔 排序 的 方法 。 后 面 
我 们 将 看 到 , 存在 一 些 递 增 的 序列 , 它们 对 该 算法 的 运行 时 间 给 出 了 重要 的 改进 ; 即使 是 一 个 小 
的 改变 都 可 能 严重 影响 算法 的 性 能 ( 见 练习 7.10)。 





5 排序 后 
3 排序 后 
1 排序 后 










[** 
* Shellsort, using Shell's (poor) increments. 
* @param a an array of Comparable items. 
sf 
public static <AnyType extends Comparable<? super AnyType>> 
void shellsort( AnyType [ ] a ) 
{ 


1 
2 
3 
4 
5 
6 
7 
8 


int j; 


for( int gap = a.length / 2; gap > 0; gap /= 2) 
for( int i = gap; i « a.length; i++ ) 
{ 
AnyType tmp = a[ i ]; 
for( j = i; j >= gap && 
tmp.compareTo( a[ j - gap ] ) < 0; j -= gap ) 
af j ] = al j - gap]; 
a[l j ] = tmp; 
) 





图 7-4 使 用 希 尔 增 量 的 希 尔 排序 例 程 (可 能 有 更 好 的 增 量 ) 


7-4 中 的 程序 以 与 我 们 在 插 人 排序 实现 方法 中 相同 的 方式 避免 明显 地 使 用 交换 。 
希 尔 排序 的 最 坏 情 形 分 析 

虽然 希 尔 排 序 编程 简单 , 但 是 , 其 运行 时 间 的 分 析 则 完全 是 另外 一 回 事 。 和 希 尔 排序 的 运行 
时 间 依 赖 于 增 量 序列 的 选择 ， 而 证 明 可 能 相当 复杂 。 和 硕 尔 排序 的 平均 情形 分 析 ,， 除 最 平凡 的 一 
些 增 量 序列 外 , 是 一 个 长 期 未 解决 的 问题 。 我 们 将 对 两 个 特别 的 增 量 序列 证 明 最 坏 情形 的 精确 
的 界 。 

定理 7.3 使 用 希 尔 增 量 时 希 尔 排 序 的 最 坏 情形 运行 时 间 为 ON?) 

WERA : 

证 明 不 仅 需 要 指出 最 坏 情形 运行 时 间 的 上 界 ， 而 且 还 需要 指出 存在 某 个 输入 实际 上 正好 花 
?t Q(N?*) 时 间 运 行 。 首 先 通 过 构造 一 个 坏 情形 来 证 明 下 界 。 我 们 首先 选择 N 是 2 的 军 。 这 使 得 
除 最 后 一 个 增 量 是 1 外 所 有 的 增 量 都 是 偶数 。 现 在 , 我 们 给 出 一 个 数组 作为 输入 , 它 的 偶数 位 置 
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上 有 NZ 个 同 为 最 大 的 数 , 而 在 奇数 位 置 上 有 NZ2 个 同 为 最 小 的 数 ( 对 该 证 明 , 第 一 个 位 置 是 位 
置 1) 。 由 于 除 最 后 一 个 增 量 外 所 有 的 增 量 都 是 偶数 , 因此 , 当 进 行 最 后 一 趟 排序 前 ，N7Z2 个 最 大 
的 元 素 仍然 在 偶数 位 置 上 , 而 N]Z2 个 最 小 的 元 素 也 还 是 在 奇数 位 置 上 。 于 是 , 在 最 后 一 趟 排序 
开始 之 前 第 i 个 最 小 的 数 (isN72) 在 位 置 2; - 1 bo BH i 个 元 素 恢复 到 其 正确 位 置 需要 在 数 
组 中 移动 ; -1 个 间隔 。 这 样 , 仅仅 将 N2 个 最 小 的 元 素 放 到 正确 的 位 置 上 就 需要 至 少 >” 
i 一 1=Q(N?) 的 工作 。 作 为 一 个 例子 , 图 7-5 显示 一 个 N= 16 时 的 坏 ( 但 不 是 最 坏 ) 的 输入 。 在 
2 排序 后 的 逆序 数 一 直 保持 恰好 为 1+2+3+4+5+6+7=28; 因此 , 最 后 一 趟 排序 将 花费 相当 


多 的 时 间 。 
Hé Eee eae I 


8 排序 后 
4 排序 后 
2 排序 后 
1 排序 后 


图 7-5 具有 希 尔 增 最 的 坏 情 形 希 尔 排 序 ( 位 置 编号 从 1 到 16) 


现在 我 们 证 明 上 界 O(N?) 以 结束 本 证 明 。 前 面 我 们 已 观察 到 , A h, 的 一 趟 排序 由 和 
次 关于 N /hi 个 元 素 的 插入 排序 组 成 。 由 于 插入 排序 是 二 次 的 , 因此 一 趟 排序 总 的 开销 是 OCA, 


(N/h,)?) = O(N?/hs)。 对 所 有 各 趟 排序 求 和 则 给 出 总 的 界 为 OC D>)" Nh) = O(N? > ， 
1 和 )。 因 为 这 些 增 量 形成 一 个 几何 级 数 ,其 公 比 为 2, 而 该 级 数 中 的 最 大 项 是 hi = 1， 因 此 ， 
37, 1/u<2。 于 是 , 我 们 得 到 总 的 界 O(N?)。 


希 尔 增 量 的 问题 在 于 , 这 些 增 量 对 未 必 是 互 素 的 , 因此 较 小 的 增 量 可 能 影响 很 小 。Hibbard 
—— 它 在 实践 中 (并 且 理 论 上 ) 给 出 更 好 的 结果 。 他 的 增 量 形 如 1, 3, 
7, …, 2* 一 1。 虽 然 这 些 增 量 几 乎 是 相同 的 , 但 关键 的 区 别 是 相 邻 的 增 量 没 有 公 因 子 。 现 在 我 们 
就 来 分 析 使 用 这 个 增 量 序列 的 希 尔 排序 的 最 坏 情形 运行 时 间 , 这 个 证 明 相当 复杂 。 

定理 7.4 使 用 Hibbard 增 量 的 希 尔 排 序 的 最 坏 情 形 运行 时 间 为 O(N”). 

WRH: 

我 们 只 证 明 上 界 , 而 将 下 界 的 证 明 留 作 练习 。 这 个 证 明 需 要 堆 垒 数论 (additive number theory) 
中 某 些 众所周知 的 结果 。 本 章 结尾 提供 了 这 些 结果 的 参考 资料 。 

和 前 面 一 样 , 对 于 上 界 , 我 们 还 是 计算 每 一 趟 排序 的 运行 时 间 的 界 , 然 后 对 各 趟 求 和 。 对 于 
那些 h> N RE, 我 们 将 使 用 前 一 定理 得 到 的 界 O(N?/h)。 虽 然 这 个 界 对 于 其 他 增 量 也 是 
成 立 的 , 但 是 它 太 大 , 用 不 上 。 直 观 地 看 , 我 们 必须 利用 这 个 增 量 序 列 是 特殊 的 这 样 一 个 事实 。 
我 们 需要 证 明 的 是 , 对 于 位 置 p 上 的 任意 元 素 a[ p ]， 当 要 执行 AFTER, 只 有 几 个 元 素 在 位 置 
p 的 左边 且 大 于 al p]。 

当 对 输入 数组 进行 h- 排 序 时 , 我 们 知道 它 已 经 是 hh , 1- 排序 和 ,2- 排 序 的 了 。 在 hy HEY 
以 前 , 考虑 位 置 p 和 p 一 i 上 的 两 个 元 素 , 其 中 i 三 p。 如 果 i EA My. HARM, BARR 
alp-il<alp) AAi, MR i 可 以 表 为 hi ;1 和 hh,, 的 线性 组 合 ( 以 非 负 整数 的 形式 ), 那么 
也 有 a[p 一 i]<<a[lp]。 作 为 一 个 例子 ， 当 进行 3- 排 序 时 , 文件 已 经 是 7- 排序 和 15- 排 序 的 了 。 
52 可 以 表 为 7 和 15 的 线性 组 合 : 52=1x7+3x15。 因 此 ，a[100] 不 可 能 大 于 a[152]， 因为 
ol100]<al107]<al122]<al137 a [132]. 

ME, hi ;2 二 2hi+1+1， AA Ah RASAT ERR, 可 以 证 明 ， 至 少 和 
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(hast 1) (527 1) 852 + 4n, 一 样 大 的 所 有 整数 都 可 以 表示 为 4+1 和 hi, 的 线性 组 合 ( 见 本 
章 末 尾 的 参考 文献 ) 。 

这 就 告诉 我 们 , 最 内 层 for 循环 对 于 这 些 N - h 位 置 上 的 每 一 个 最 多 执行 8h + 4= OCA) 
次 。 于 是 我 们 得 到 每 趟 的 界 O(Nhi )。 

利用 大 约 一 半 的 增 量 满足 和 < V N 的 事实 并 假设 上 是 偶数 , 那么 总 的 运行 时 间 为 : 


12 t uA t 
O(>)N + X N'/h,) O(N2]h, + N? > Mh) 
k=1 k be] ki: 


=1/2+1 


因为 两 个 和 都 是 几何 级 数 , FFA A, p= B(Y N), 所 以 上 式 简化 为 : 
=O(Mz)+0( 访 )=oOCNs”) a 


Ua 

使 用 Hibbard 增 量 的 希 尔 排序 平均 情形 运行 时 间 基 于 模拟 的 结果 被 认为 是 O(N5“), 但 是 没 
有 人 能 够 证 明 该 结果 。Pratt 证 明了 O( N°? BS GS RHET iE BREITE VU, 

Sedgewick 提出 了 几 种 增 量 序列 , 其 最 坏 情形 运行 时 间 ( 也 是 可 以 达到 的 ) 为 OCN*2) , HF 
这 些 增 量 序列 的 平均 运行 时 间 猜 测 为 O(N””*)。 经 验 研究 指出 , 在 实践 中 这 些 序 列 的 运行 要 比 
Hibbard 的 好 得 多 ,其 中 最 好 的 是 序列 11，5，19，41，109,…|, 该 序列 中 的 项 或 者 是 9:4’ — 
9:2 - 1 的 形式 , 或 者 是 4 一 3-2’ +1 的 形式 。 该 算法 通过 将 这 些 值 放 到 一 个 数组 中 最 容易 实现 。 
虽然 有 可 能 存在 某 个 增 量 序列 使 得 能 够 对 希 尔 排 序 的 运行 时 间 给 出 重大 改进 , 但 是 , 这 个 增 量 序 
列 在 实践 中 还 是 最 为 人 们 称道 的 。 

关于 希 尔 排 序 还 有 几 个 其 他 结果 , 它们 需要 数论 和 组 合 数学 中 一 些 困难 的 定理 而 且 主 要 是 
在 理论 上 有 用 。 希 尔 排 序 是 算法 非常 简单 且 又 具有 极其 复杂 的 分 析 的 一 个 好 例子 。 

希 尔 排序 的 性 能 在 实践 中 是 完全 可 以 接受 的 , 即使 是 对 于 数 以 万 计 的 N 仍 是 如 此 。 编 程 的 
简单 特点 使 得 它 成 为 对 适度 地 大 量 的 输入 数据 经 常 选 用 的 算法 。 


7.5 HF 


正如 第 6 章 提 到 的 , 优先 队列 可 以 用 于 以 O(N log N) 时 间 的 排序 。 基 于 该 思想 的 算法 叫做 
堆 排序 (heapsort) , 它 给 出 了 我 们 至 今 所 见 到 的 最 佳 的 大 O 运行 时 间 。 

回忆 在 第 6 章 建立 N 个 元 素 的 二 叉 堆 的 基本 策略 , 这 个 阶段 花费 O(N) 时 间 。 然 后 我 们 执 
ÍF N 次 deleteMin 操作 。 按 照 顺 序 , 最 小 的 元 素 先 离开 堆 。 通 过 将 这 些 元 素 记 录 到 第 二 个 数组 
然后 再 将 数组 拷贝 回来 , 得 到 N 个 元 素 的 排序 。 由 于 每 个 deleteMin 花费 时 间 O(log N), 因此 
总 的 运行 时 间 是 O(N log N)。 

该 算法 的 主要 问题 在 于 它 使 用 了 一 个 附加 的 数组 。 因 此 , 存储 需求 增加 一 倍 。 在 某 些 实例 
中 这 可 能 是 个 问题 。 注 意 , 将 第 二 个 数组 拷贝 回 第 一 个 数组 的 附加 时 间 消 耗 只 是 O(N), 这 不 可 
能 显著 影响 运行 时 间 。 这 里 的 问题 是 空间 的 问题 。 

回避 使 用 第 二 个 数组 的 聪明 的 方法 是 利用 这 样 的 事实 : 在 每 次 deleteMin 之 后 , 堆 缩小 1。 
因此 , 位 于 堆 中 最 后 的 单元 可 以 用 来 存放 刚刚 删 去 的 元 素 。 例 如 , 设 我 们 有 一 个 堆 , 它 含 有 6 个 
元 素 。 第 一 次 deleteMin 产生 个 ai。 现 在 该 堆 只 有 5 个 元 素 , 因此 我 们 可 以 把 ai 放 在 位 置 6 上 。 
下 一 次 deleteMin 产生 个 a, 由 于 该 堆 现在 只 有 4 个 元 素 , 因此 我 们 把 a WELES 上。 

使 用 这 种 策略 ,在 最 后 一 次 deleteMin 后 ,该 数组 将 以 递减 的 顺序 包含 这 些 元 素 。 如 果 我 们 
想 要 这 些 元 素 排 成 更 典型 的 递增 顺序 , 那么 可 以 改变 有 序 的 特性 使 得 父亲 的 关键 字 的 值 大 于 儿 
子 的 关键 字 的 值 。 这 样 就 得 到 (max) 堆 。 

在 我 们 的 实现 方法 中 将 使 用 一 个 (max) 堆 , 但 由 于 速度 的 原因 避免 了 实际 的 ADT。 照 通常 的 
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习惯 , 每 一 件 事 都 是 在 数组 中 完成 的 。 第 一 步 以 线性 时 间 建 立 一 个 堆 。 然 后 通过 每 次 将 堆 中 的 
最 后 元 素 与 第 一 个 元 素 交 换 , 执行 N- 1 次 deleteMax 操作 , 每 次 将 堆 的 大 小 缩减 二 并 进行 下 滤 。 
当 算 法 终止 时 , 数组 则 以 排 好 的 顺序 包含 这 些 元 素 。 例 如 , 考虑 输入 序列 31, 41, 59, 26, 53, 
58, 97。 最 后 得 到 的 堆 如 图 7-6 所 示 。 

图 7-7 显示 在 第 一 次 deleteMax 之 后 的 堆 。 从 图 中 看 出 , 堆 中 的 最 后 元 素 是 31; 97 已 经 被 放 
在 堆 数组 的 从 技术 上 说 不 再 属于 该 堆 的 部 分 上 。 在 此 后 的 5 次 deleteMax 操作 之 后 , 该 堆 实 际 上 
只 有 一 个 元 素 ， 而 在 堆 数组 中 留 下 的 元 素 将 是 排序 后 的 顺序 。 





Gs) w G9 o 97 
| j97|53|59|26|41]58 933 |. | | | | [s59]|ss]ss2e]er |: ||]. | | | 
0 |! 2 3 4 5 6 7 S8 O9 10 0 1 2 3 4 5 6 7 8 9 10 
图 7-6 在 buildHeap 阶段 之 后 的 (Max) 堆 图 7-7 在 第 一 次 deleteMax 后 的 堆 


执行 堆 排 序 的 代码 在 图 7-8 中 给 出 。 稍 微 有 些 复杂 的 是 , 这 里 不 像 二 叉 堆 ,二 叉 堆 时 的 数据 
在 数组 下 标 1 处 开始 , 而 此 处 堆 排 序 的 数组 包含 位 置 0 处 的 数据 。 因 此 , 这 时 的 程序 与 二 叉 堆 的 
代码 有 些 不 同 , 不 过 变化 很 小 。 
堆 排序 的 分 析 

我 们 在 第 6 章 已 经 看 到 , 第 一 阶段 构建 堆 最 多 用 到 2N 次 比较 。 在 第 二 阶段 , 第 i 次 
deleteMax 最 多 用 到 2| log i | 次 比较 ,总 数 最 多 2N log N - O(N) 次 比较 ( 设 N 宇 2)。 因 此 , 在 最 
坏 的 情形 下 堆 排 序 最 多 使 用 2N log N 一 O(N) 次 比较 。 练 习 7.13 要 求证 明 对 于 所 有 的 
deleteMax 操作 有 可 能 同时 达到 它们 的 最 坏 情 形 。 

经 验 表 明 , 堆 排序 是 一 个 非常 稳定 的 算法 : 它 使 用 的 比较 平均 只 比 最 坏 情形 界 指出 的 略 
少 。 多 年 来 , 还 没有 人 能 够 指出 堆 排 序 平均 运行 时 间 的 非 平 凡 界 。 似 乎 问题 在 于 连续 的 
deleteMax 操作 破坏 了 堆 的 随机 性 , 使 得 概率 论证 非常 复杂 。 最 后 , 另 一 种 处 理 方 法 终于 被 证 明 
是 成 功 的 。 

定理 7.5 对 六 个 互 异 项 的 随机 排列 进行 堆 排 序 所 用 比较 的 平均 次 数 为 2N log N- O(N 
log log N)。 

WERA: 

构建 堆 的 阶段 平均 使 用 O(N) KHER, 因此 我 们 只 需要 证 明 第 二 阶段 的 界 。 设 有 |1, 2，…， 
Ni 的 一 个 排列 。 

BR i 次 deleteMax 将 根 元 素 向 下 推 低 d; 层 。 此 时 它 使 用 了 2d; 次 比较 。 对 于 对 任意 的 输 
人 数据 的 堆 排 序 , 存在 一 个 开销 序列 (cost sequence) D: dy, do, ..., dy, 它 确 定 了 第 二 阶段 的 开 


销 , 该 开销 由 Mp = 2; d, 给 出 ; 因此 所 使 用 的 比较 次 数 是 2Mp。 


4 f N)JÉ N TAS HER TK. BT LAE BA (AR 7.53), (N) >(NA4e))%, Km, e= 
2.71828…。 我 们 将 证 明 ， 只 有 这 些 堆 中 指数 上 很 小 的 部 分 (特别 是 (NI16)N) 的 开销 小 于 M = 
N(log N - log log N 一 4)。 当 该 结论 得 证 时 可 以 推出 Mp 的 平均 值 至 少 是 M 减 去 大 小 为 o(1) 的 一 项 ， 
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第 7 章 


/** 

* [nternal method for heapsort. 

* (param i the index of an item in the heap. 
* @return the index of the left child. 

"I 

private static int leftChild( int i ) 

{ 


) 


return 2 * i + 1; 


* Internal method for heapsort that is used in deleteMax and buildHeap. 
* @param a an array of Comparable items. 
* Qint i the position from which to percolate down. 
* @int n the logical size of the binary heap. 
g Á 
private static «AnyType extends Comparable<? super AnyType>> 
void percDown( AnyType [ ] a, int i, int n) 
{ 
int child; 
AnyType tmp; 


for( tmp = a[ i ]; leftChild( i ) < n; i = child ) 


child = leftChild( i ); 
if( child l= n - 1 && a[ child }.compareTo{ al child +1] ) < 
child++; 
if( tmp.compareTo( a[ child] ) « 0 ) 
a[ i ] = a[ child ]; 
else 
break; 
} 
a[ i ] = tmp; 


pee 
* Standard heapsort. 
* @param a an array of Comparable items. 
* 
public static <AnyType extends Comparable<? super AnyType>> 
void heapsort( AnyType [ ] a ) 
{ 


for( int i = a.length / 2; i >= 0; i-- ) /* buildHeap */ 
percDown( a, i, a.length ); 

for( int i = a.length - 1; i > 0; i-- ) 

( 


swapReferences( a, 0, i ); /* deleteMax */ 
percDown( a, 0, i ); 





图 7-8 堆 排 序 
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这 样 ， 比 较 的 平均 次 数 至 少 是 2M。 因 此 , 我 们 的 基本 目标 则 是 证 明 存 在 很 少 的 具有 小 的 开销 序 
Fly ft) HE 

因为 第 d, 层 上 最 多 有 24 个 节点 , 所 以 对 于 任意 的 d; 存在 根 元 素 可 能 去 到 的 24 个 可 能 的 位 
置 。 Te, 对 任意 的 序列 D, 对 应 deleteMax 的 互 异 序列 的 个 数 最 多 是 

Sp = 2424-27» 
简单 的 代数 处 理 表 明 , 对 一 个 给 定 的 序列 D 
Sp 一 2M, 

因为 每 个 di 可 取 1 iL log N | 之 间 的 任 一 值 , 所 以 最 多 存在 (log N) 个 可 能 的 序列 D。 由 此 
可 知 , 需要 花费 开销 恰好 为 M 的 互 异 deleteMax 序列 的 个 数 最 多 是 总 开销 为 M 的 开销 序列 的 个 
数 乘 以 每 个 这 种 开销 序列 的 deleteMax 序列 的 个 数 。 这 样 就 立刻 得 到 界 (log N) "2M 。 

开销 序列 小 于 M 的 堆 的 总 数 最 多 为 

> (log N)^2' «€ (log N)N2M 

如 果 我 们 选择 M= N(log N - bs log N-4), 那么 开销 序列 小 于 M 的 堆 的 个 数 最 多 为 (NV 
16)", 根据 我 们 前 面 的 评述 , 定理 得 证 。 B 

通过 更 复杂 的 论述 可 以 证 明 , 堆 排 序 总 是 使 用 至 少 N log N- O(N) 次 比较 , 而 且 存 在 输入 
数据 能 够 达到 这 个 界 。 似 乎 平均 情形 也 应 该 是 2N log N - O(N) 次 比较 (而 不 是 定理 7.5 中 非 线 
性 的 第 二 项 ); 这 是 否 能 够 证 明 ( 其 至 是 否 成 立 ) 还 是 个 未 解决 的 问题 。 


7.6 归并 排序 


现在 我 们 把 注意 力 转 到 归并 排序 (mergesort)。 归 并 排序 以 O(N log N) 最 坏 情 形 时 间 运 行 ， 
而 所 使 用 的 比较 次 数 几乎 是 最 优 的 。 它 是 递归 算法 一 个 好 的 实例 。 

这 个 算法 中 基本 的 操作 是 合并 两 个 已 排序 的 表 。 因 为 这 两 个 表 是 已 排序 的 , 所 以 若 将 输出 
放 到 第 3 个 表 中 , 则 该 算法 可 以 通过 对 输入 数据 一 趟 排序 来 完成 。 基 本 的 合并 算法 是 取 两 个 输 
人 数组 A AB, 一 个 输出 数组 C, 以 及 3 个 计数 器 Actr、Bctr、Cctr, 它们 初始 置 于 对 应 数组 的 开 
始 端 。A[ Actr] 和 B[Bctrj 中 的 较 小 者 被 拷贝 到 C 中 的 下 一 个 位 置 , 相关 的 计数 器 向 前 推进 一 步 。 
当 两 个 输入 表 有 一 个 用 完 的 时 候 , 则 将 另 一 个 表 中 剩余 部 分 拷贝 到 C 中 。 合 并 例 程 如 何 工作 的 
aia 


us E ctr 


如 果 数 组 A SUB 1.13.24, 26, 数组 BAA 2.15. 27, 38, 那么 该 算法 的 过 程 如 下 : 首先 ， 
比较 在 1 和 2 — 1 C 中 ， T. 13 和 2 进行 比较 。 


PEE) Goes) CLO 


Cetr 


2 被 添加 到 CP, 然后 13 和 15 进行 比较 。 


加 加 加 加 a) EGELTTITJ 
T 


Actr Bctr Cetr 


13 被 添加 到 C 中 , 接 下 来 比较 24 和 15, 这 样 一 直 进 行 到 26 和 27 进行 比较 。 
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T T 
Actr Bctr Cetr 
EZEXEEECNE E ER URS 
T 
Betr Cetr 
FEE feist] eae d E. | 


Actr Betr Cetr 


将 26 添加 到 C 中 , 数组 A 已 经 用 完 。 


i 3 | 24 | ae [jajepegpoe[os] | 
T T 
Bctr 


Actr 


Actr 


Cer 


然后 将 数组 B 的 其 余部 分 拷贝 到 C 中 。 


[ri aeos] (elijes La] 2 fa] is] 2s] 26 | 27 |s 
T T T 


Actr Betr Cetr 


合并 两 个 已 排序 的 表 的 时 间 显 然 是 线性 的 , 因为 最 多 进行 N -1 次 比较 , 其 中 N 是 元 素 的 
总 数 。 为 了 看 清 这 一 点 , 注意 每 次 比较 都 把 一 个 元 素 添加 到 C 中 , 但 最 后 的 比较 除外 , 它 至 少 添 
加 两 个 元 素 。 

Wt, 归并 排序 算法 很 容易 描述 。 如 果 N =1, 那么 只 有 一 个 元 素 需 要 排序 , 答案 是 显然 的 。 
否则 , 递归 地 将 前 半 部 分 数据 和 后 半 部 分 数据 各 自 归 并 排序 , 得 到 排序 后 的 两 部 分 数据 , 然后 使 
用 上 面 描述 的 合并 算法 再 将 这 两 部 分 合并 到 一 起 。 例 如 ,和 欲 将 8 元 素数 组 24, 13, 26, 1, 2, 27, 
38, 15 排序 , 递归 地 将 前 4 个 数据 和 后 4 个 数据 分 别 排序 , 得 到 1, 13, 24, 26, 2,15, 27, 38。 
然后 , 像 上 面 那样 将 这 两 部 分 合并 , 得 到 最 后 的 表 1, 2, 13, 15, 24, 26, 27, 38。 该 算法 是 经 典 
的 分 治 (divide-and-conquer) 策 略 , 它 将 问题 分 (divide) 成 一 些小 的 问题 然后 递归 求解 ， 而 治 (con- 
quer) 的 阶段 则 将 分 的 阶段 解 得 的 各 答案 修补 在 一 起 。 分 而 治之 是 递归 非常 有 效 的 用 法 , 我 们 将 
会 多 次 遇 到 。 

归并 排序 的 一 种 实现 在 图 7-9 中 给 出 。 这 里 public 型 的 mergeSort 正 是 private 型 递归 方法 
mergeSort 的 一 个 驱动 程序 。 

merge 例 程 很 精巧 。 如 果 对 merge 的 每 个 递归 调用 均 局 部 声明 一 个 临时 数组 , 那么 在 任 一 时 
刻 就 可 能 有 log N 个 临时 数组 处 在 活动 期 。 精 密 的 考察 表明 , 由 于 merge 是 mergeSort 的 最 后 一 
行 , 因此 在 任 一 时 刻 只 需要 一 个 临时 数组 在 活动 , 而 且 这 个 临时 数组 可 以 在 public 型 的 merge- 
Sort 驱动 程序 中 建立 。 不 仅 如 此 , 我 们 还 可 以 使 用 该 临时 数组 的 任意 部 分 ; 我 们 将 使 用 与 输入 数 
组 a 相同 的 部 分 , 这 就 达到 本 节 末 尾 描述 的 改进 。 图 7-10 实现 这 个 merge HF. 
归并 排序 的 分 析 
归并 排序 是 用 于 分 析 递 归 例 程 技巧 的 经 典 实例 : 我 们 必须 为 运行 时 间 写 出 一 个 递归 关系 。 

假设 N 是 2H, 我 们 总 可 以 将 它 分 裂 成 相等 的 两 部 分 。 对 于 N =1, 归并 排序 所 用 时 间 是 常 
数 , 我 们 将 其 记 为 1。 否则 , MN 个 数 归并 排序 的 用 时 等 于 完成 两 个 大 小 为 N/2 的 递归 排序 所 
用 的 时 间 再 加 上 合并 的 时 间 , 它 是 线性 的 。 下 述 方程 给 出 了 准确 的 表示 : 

T(1)=1 
T(N)=2T(N2)+N 
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** 
* Internal method that makes recursive calls. 
* @param a an array of Comparable items. 
* @param tmpArray an array to place the merged result. 
* @param left the left-most index of the subarray. 
* @param right the right-most index of the subarray. 
*/ 
private static <AnyType extends Comparable<? super AnyType>> 
void mergeSort( AnyType [ ] a, AnyType [ ] tmpArray, int left, int right ) 
{ 
if( left < right ) 
( 


On Ov GA A Co ho € 


int center = ( left + right ) / 2; 

mergeSort( a, tmpArray, left, center ); 
mergeSort( a, tmpArray, center + 1, right ); 
merge( a, tmpArray, left, center + 1, right ); 


* Mergesort algorithm. 

* @param a an array of Comparable items. 

Ei 
public static «AnyType extends Comparable<? super AnyType>> 
void mergeSort( AnyType [ ] a ) 

( 


AnyType [ ] tmpArray = (AnyType[]) new Comparable[ a.length J; 


mergeSort( a, tmpArray, 0, a.length - 1 ); 





图 7-9 归并 排序 例 程 


这 是 一 个 标准 的 递 推 关 系 , 它 可 以 用 多 种 方法 求解 。 我 们 将 介绍 两 种 方法 。 第 一 种 方法 是 用 N 
去 除 递 推 关 系 的 两 边 , 我 们 很 快 就 会 发 现 其 明显 的 理由 。 相 除 后 得 到 
T(N) T(N/2) 
N N2 
该 方程 对 作为 2 的 短 的 任意 的 N 是 成 立 的 , 于 是 我 们 还 可 以 写成 
T(N/2). T(N/4) 
N2 |. NA 


*1 


+1 


和 


T(N/4)  T(N/8), 
N/A NA 


TQ) -TD+1 


将 所 有 这 些 方程 相 加 ， 即 将 等 号 左边 的 所 有 各 项 相 加 并 使 结果 等 于 右边 所 有 各 项 的 和 。 项 
T(N/2)AN 人 2) 出 现在 等 号 两 边 可 以 消去 。 事 实 上 , 实际 出 现在 两 边 的 项 均 被 消去 , 我 们 称 之 为 
登 缩 (telescoping) 求 和 。 在 所 有 的 加 法 完成 之 后 , 最 后 的 结果 为 
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[** 

* Internal method that merges two sorted halves of a subarray. 
* @param a an array of Comparable items, 

* @param tmpArray an array to place the merged result. 

* @param leftPos the left-most index of the subarray. 

* @param rightPos the index of the start of the second half. 

* (param rightEnd the right-most index of the subarray. 


2£7* 





private static «AnyType extends Comparable«? super AnyType»» 
void merge( AnyType [ ] a, AnyType [ ] tmpArray, 


{ 





int leftPos, int rightPos, int rightEnd ) 


int leftEnd = rightPos - 1; 
int tmpPos = leftPos; 
int numElements = rightEnd - leftPos + 1; 


// Main loop 
while( leftPos <= leftEnd && rightPos <= rightEnd ) 
if( af leftPos ].compareTo( a[ rightPos ] ) <= 0) 
tmpArray[ tmpPos++ ] = a[ leftPos++ ]; 
else 
tmpArray[ tmpPos++ ] = a[ rightPos++ ]; 


while( leftPos <= leftEnd ) // Copy rest of first half 
tmpArray[ tmpPos** ] = a[ leftPos** ]; 


while( rightPos <= rightEnd ) // Copy rest of right half 
tmpArray[ tmpPos** ] = a[ rightPos++ ]; 


// Copy tmpArray back 
for( int i = 0; i < numElements; i++, rightEnd-- ) 
a[ rightEnd ] = tmpArray[ rightEnd ]; 


Æ 7-10 merge 例 程 


T(N) 7 TU) UN 


这 是 因为 所 有 其 余 的 项 都 被 消去 了 ,而 方程 的 个 数 是 log N 个 , 故而 将 各 方程 末尾 的 1 相 加 起 来 


得 到 log N。 再 将 两 边 同 乘 以 N, 得 到 最 后 的 答案 


T(N)=N log N+ N= O(N log N) 


注意 , 假如 在 求解 开始 时 不 是 通 除 以 N, 那么 两 边 的 和 也 就 不 可 能 登 缩 。 这 就 是 为 什么 我 们 


要 通 除 以 NN WAR. 


男 一 种 方法 是 在 右边 连续 地 代入 递 推 关系 。 我 们 得 到 


因此 得 到 


T(N)=2T(N/2)+N 


由 于 可 以 将 NZ2 代入 到 主要 的 方程 中 
2T(N/2)=2(2(T(NA)) + N2)=4T(NA)+N 


Download at http:// www.pin5i.com/ 


排 请 195 


T(N)24T(N/4) * 2N 

再 将 N/4 代入 到 主要 的 方程 中 去 , 我们 看 到 
4T(N/4)=4(2T(N/8)+ N/4)=8T(N/8)+N 

因此 我 们 有 

T(N)=8T(N/8)+3N 
将 这 种 方式 继续 下 去 ,得 到 

T(N)z2*T(N/2*) * &* N 
FFA k=log N, 48 
T(N)=NT(1) +N log N=N log N+N 


选择 使 用 哪 种 方法 是 风格 问题 。 第 一 种 方法 引起 一 些 琐碎 的 工作 , 把 它 写 到 一 张 8 x 


的 纸 上 可 能 更 好 , 这 样 会 减少 数学 错误 , 不 过 需要 用 到 一 定 的 经 验 。 第 二 种 方法 更 偏重 于 使 用 蛮 
Ant. 

回忆 我 们 已 经 假设 N =2*。 分 析 可 以 精 化 以 处 理 N 不 是 2 BEL, 答案 几乎 
是 一 样 的 (通常 出 现 的 就 是 这 样 的 情形 )。 

虽然 归并 排序 的 运行 时 间 是 O(N log N), 但 是 它 有 一 个 明显 的 问题 , 即 合 并 两 个 已 排序 的 
表 用 到 线性 附加 内 存 。 在 整个 算法 中 还 要 花费 将 数据 拷贝 到 临时 数组 再 拷贝 回来 这 样 一 些 附加 
的 工作 , 它 明显 减 慢 了 排序 的 速度 。 这 种 拷贝 可 以 通过 在 递归 的 那些 交替 层次 上 审慎 地 交换 a 
和 tmpArray 的 角色 得 以 避免 。 归 并 排序 的 一 种 变形 也 可 以 非 递归 地 实现 ( 见 练习 7.16)。 

与 其 他 的 O(N log N) 排 序 算法 比较 , 归并 排序 的 运行 时 间 严 重 依赖 于 比较 元 素 和 在 数组 
(以 及 临时 数组 ) 中 移动 元 素 的 相对 开销 。 这 些 开销 是 与 语言 相关 的 。 

例如 , 在 Java 中 ， 当 执行 一 次 泛 型 排序 (使 用 Comparator) 时 , 进行 一 次 元 素 比 较 可 能 是 昂贵 
的 (因为 比较 可 能 不 容易 被 内 嵌 ， 从 而 动态 调度 的 开销 可 能 会 减 慢 执行 的 速度 ), 但 是 移动 元 素 则 
是 省 时 的 (因为 它们 是 引用 的 赋值 , 而 不 是 庞大 对 象 的 拷贝 )。 归 并 排序 使 用 所 有 流行 的 排序 算 
法 中 最 少 的 比较 次 数 , 因此 是 使 用 Java 的 通用 排序 算法 中 的 上 好 的 选择 。 事 实 上 , 它 就 是 标准 
Java 类 库 中 泛 型 排序 所 使 用 的 算法 。 

另 一 方面 , 在 C++ 的 泛 型 排序 中 , 如 果 对 象 庞大 , 那么 拷贝 对 象 可 能 需要 很 大 开销 ,而 由 于 
编译 器 具有 主动 执行 内 艇 优化 的 能 力 , 因此 比较 对 象 常常 是 相对 省 时 的 。 在 这 种 情形 下 ,如 果 我 
位 还 能 够 使 用 更 少 的 数据 移动 , 那么 有 理由 让 一 个 算法 多 使 用 一 些 比 较 。 下 一 节 将 要 讨论 的 
Quicksort( 快 速 排 序 ) 达 到 了 这 种 权衡 , 并 且 是 C++ 库 中 通常 所 使 用 的 排序 例 程 。 

在 Java 中 , 快速 排序 也 用 作 基 本 类 型 的 标准 库 排 序 。 这 里 ， 比 较 和 数据 移动 的 开销 是 类 似 
Bj, 因此 使 用 少 得 多 的 数据 移动 足以 补偿 那些 附加 的 比较 而 且 还 有 权 余 。 


7.7. 快速 排序 


顾名思义 ,快速 排序 (quicksort) 是 实践 中 的 一 种 快速 的 排序 算法 , 在 C++ 或 对 Java 基本 类 型 
的 排序 中 特别 有 用 。 它 的 平均 运行 时 间 是 O(N log N)。 该 算法 之 所 以 特别 快 , 主要 是 由 于 非常 
精练 和 高 度 优化 的 内 部 循环 。 它 的 最 坏 情 形 性 能 为 O(N?), 但 经 过 稍 许 努力 可 使 这 种 情形 极 难 
出 现 。 通 过 将 快速 排序 和 堆 排 序 结 合 , 由 于 堆 排 序 的 O(N log N) 最 坏 情形 运行 时 间 , 我 们 可 以 
对 几乎 所 有 的 输入 都 能 达到 快速 排序 的 快速 运行 时 间 。 练 习 7-27 描述 的 就 是 这 种 方法 。 


O 理论 上 使 用 更 少 的 附加 内 存 是 可 能 的 , 但 所 得 到 的 算法 是 复杂 的 和 不 实际 的 。 


Download at http://www.pinSi.com/ 


196 第 7 章 


虽然 多 年 来 快速 排序 算法 曾 被 认为 是 理论 上 高 度 优化 而 在 实践 中 不 可 能 正确 编程 的 一 种 算 
法 , 但 是 如 今 该 算法 简单 易 懂 并 且 被 证 明 是 正确 的 。 像 归并 排序 一 样 , 快速 排序 也 是 一 种 分 治 的 
递归 算法 。 将 数组 S 排序 的 基本 算法 由 下 列 简单 的 四 步 组 成 : 

1. MRS 中 元 素 个 数 是 0 或 1, 则 返回 。 

2. RS 中 任 一 元 素 v, ( pPivot)⸗- 

3. 将 S- lol CS 中 其 余 元 素 ) 划 分 成 两 个 不 相交 的 集合 : S,=lzES- jullz 达 v 和 5,= 
Ix€S- Ivllxz vil. 

4. 3& [8] | quicksort( S1) 后 跟 wv, 继而 返回 quicksort( S2) | o 

由 于 对 那些 等 于 枢纽 元 的 元 素 的 处 理 上 , 第 3 步 分 割 的 描述 不 是 唯一 的 , 因此 这 就 成 了 一 种 
设计 决策 。 一 部 分 好 的 实现 方法 是 将 这 种 情形 尽 可 能 有 效 地 处 理 。 直 观 地 看 , 我 们 希望 把 等 于 
枢纽 元 的 大 约 一 半 的 关键 字 分 到 S, 中 , 而 另外 的 一 半分 到 S; 中, 很 像 我 们 希望 二 叉 查 找 树 保持 
平衡 的 情形 。 

7-11 显示 了 快速 排序 对 一 个 数 集 的 做 法 。 这 里 的 枢纽 元 (随机 地 ) 选 为 65, 集合 中 其 余 元 
素 分 成 两 个 更 小 的 集合 。 递 归 地 将 较 小 的 数 的 集合 排序 得 到 0, 13, 26, 31, 43, 57( 递 归 法 则 3), 
较 大 的 数 的 集合 类 似 地 排序 ,此 时 整个 集合 排序 后 的 排列 很 容易 得 到 。 





0 13 26 31 43 57 65 75 81 92 


图 7-11 以 例 说 明快 速 排序 的 各 步 


该 算法 显然 成 立 , 但 是 不 清楚 的 是 , 为 什么 它 比 归并 排序 快 。 如 同 归 并 排序 那样 , 快速 排序 
递归 地 解决 两 个 子 问 题 并 需要 线性 的 附加 工作 (第 3 步 ), 不 过 , 与 归并 排序 不 同 , 这 两 个 子 问题 
并 不 保证 具有 相等 的 大 小 , 这 是 个 潜在 的 隐患 。 快 速 排序 更 快 的 原因 在 于 , 第 3 步 分 割 成 两 组 实 
际 上 是 在 适当 的 位 置 进行 并 且 非 常 有 效 , 它 的 高 效 不 仅 可 以 弥补 大 小 不 等 的 递归 调用 的 不 足 而 
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且 还 能 有 所 超出 。 

迄今 为 止 ,对 该 算法 的 描述 尚 缺少 许多 细节 , 我 们 现在 就 来 补充 这 些 细 节 。 实 现 第 2 步 和 第 
3 步 有 许多 方法 ; 这 里 介绍 的 方法 是 大 量 分 析 和 经 验 研究 的 结果 , 它 代 表 实 现 快速 排序 的 非常 有 
效 的 方法 ,即使 是 对 该 方法 最 微小 的 偏差 都 可 能 引起 意 想 不 到 的 坏 结果 。 

7.7.1 选取 枢纽 元 

虽然 上 面 描述 的 算法 无 论 选择 哪个 元 素 作为 枢纽 元 都 能 完成 排序 工作 , 但 是 有 些 选择 显然 
优 于 其 他 选择 。 

一 种 错误 的 方法 

通常 的 、 无 知 的 选择 是 将 第 一 个 元 素 用 作 枢 纽 元 。 如 果 输 入 是 随机 的 , 那么 这 是 可 以 接受 
的 , 而 如 果 输 入 是 预 排序 的 或 是 反 序 的 , 那么 这 样 的 枢纽 元 就 产生 一 个 劣质 的 分 割 , 因为 所 有 的 
元 素 不 是 都 被 划 人 S, 就 是 都 被 划 入 S,。 更 糟糕 的 是 , 这 种 情况 毫 无 例外 地 发 生 在 所 有 的 递归 调 
用 中 。 实 际 上 ,如 果 第 一 个 元 素 用 作 枢 纽 元 而 且 输 入 是 预先 排序 的 , 那么 快速 排序 花费 的 时 间 将 
是 二 次 的 , 可 是 实际 上 却 根 本 没 于 什么 事 , REARS. MA, 预 排序 的 输入 (或 具有 一 大 
段 予 排序 数据 的 输入 ) 是 相当 常见 的 , 因此 , 使 用 第 一 个 元 素 作 为 枢纽 元 是 绝对 可 怕 的 坏 主意 ， 
应 该 立即 放弃 这 种 想法 。 另 一 种 想法 是 选取 前 两 个 互 异 的 关键 字 中 的 较 大 者 作为 枢纽 元 , 不 过 
这 和 只 选取 第 一 个 元 素 作 为 枢纽 元 具有 相同 的 害处 。 不 要 使 用 这 两 种 选取 枢纽 元 的 策略 。 

一 种 安全 的 做 法 

一 种 安全 的 方针 是 随机 选取 枢纽 元 。 一 般 来 说 这 种 策略 非常 安全 , 除非 随机 数 发 生 器 有 问 
题 ( 它 并 不 像 你 可 能 想像 的 那么 罕见 ), 因为 随机 的 枢纽 元 不 可 能 总 在 接连 不 断 地 产生 劣质 的 分 
割 。 另 一 方面 , 随机 数 的 生成 一 般 开 销 很 大 , 根本 减少 不 了 算法 其 余部 分 的 平均 运行 时 间 。 

三 数 中 值 分 割 法 (Median-of-Three Partitioning) 

一 组 N 个 数 的 中 值 ( 也 叫做 中 位 数 ) 是 第 TN/2 1 个 最 大 的 数 。 枢 纽 元 的 最 好 的 选择 是 数组 的 
中 值 。 不 幸 的 是 , 这 很 难 算出 并 且 会 明显 减 慢 快速 排序 的 速度 。 这 样 的 中 值 的 估计 量 可 以 通过 
随机 选取 三 个 元 素 并 用 它们 的 中 值 作为 枢纽 元 而 得 到 。 事 实 上 , 随机 性 并 没有 多 大 的 帮助 , 因此 
一 般 的 做 法 是 使 用 左 端 、 右 端 和 中 心 位置 上 的 三 个 元 率 的 中 值 作为 枢纽 元 。 例 如 , MAA 8, 1, 
4, 9, 6, 3, 5,2,7, 0, 它 的 左边 元 素 是 8, 右边 元 素 是 0, 中 心 位 置 (| (Left + right )/2」) 上 的 元 
素 是 6。 于 是 枢纽 元 则 是 v=6。 显 然 使 用 三 数 中 值 分 割 法 消除 了 预 排 序 输 入 的 坏 情 形 ( 在 这 种 情 
ETF, 这 些 分 割 都 是 一 样 的 ), 并 且 实 际 减少 了 14% 的 比较 次 数 。 

7.7.2 分 割 策略 l 

有 几 种 分 割 策略 用 于 实践 ,而 此 处 描述 的 分 割 策略 已 被 证 明 能 够 给 出 好 的 结果 。 我 们 将 会 
看 到 , 分 割 是 一 种 很 容易 出 错 或 低 效 的 操作 , 但 使 用 一 种 已 知 方法 是 安全 的 。 该 法 的 第 一 步 是 通 
过 将 枢纽 元 与 最 后 的 元 素 交 换 使 得 枢纽 元 离开 要 被 分 割 的 数据 段 。i 从 第 一 个 元 素 开始 而 j 从 倒 
数 第 二 个 元 素 开 始 。 如 果 原 始 输入 与 前 面 一 样 , 那么 下 面 的 图 表示 当前 的 状态 。 


暂时 假设 所 有 的 元 素 互 异 ,后 面 我 们 将 着 重 考 虑 在 出 现 重 复元 素 时 应 该 怎么 办 。 作 为 有 限 的 情 
况 , 如 果 所 有 的 元 素 都 相同 , 那么 我 们 的 算法 必须 做 该 做 的 事 。 然 而 奇怪 的 是 ,此 时 却 特别 容易 
出 错 。 

在 分 割 阶段 要 做 的 就 是 把 所 有 小 元 素 移 到 数组 的 左边 而 把 所 有 大 元 素 移 到 数组 的 右边 。 当 
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然 ,“ 小 "和 “大 "是 相对 于 枢纽 元 而 言 的 。 

4itt j HAMM, 我 们 将 i 右 移 , 移 过 那些 小 于 枢纽 元 的 元 素 , 并 将 j 左 移 , 移 过 那些 大 
于 枢纽 元 的 元 素 。 当 i 和 j 停 止 时 , i 指 向 一 个 大 元 素 而 j 指 向 一 个 小 元 素 。 如 果 iE j 的 左边 ， 
那么 将 这 两 个 元 素 互 换 ， 其 效果 是 把 一 个 大 元 素 推 向 右边 而 把 一 个 小 元 素 推 向 左边 。 在 上 面 的 
例子 中 , i 不 移动 , 而 j 滑 过 一 个 位 置 , 情况 如 下 图 。 


然后 我 们 交换 由 i 和 j 指向 的 元 素 , 重复 该 过 程 直到 i 和 j 彼 此 交错 为 止 。 


第 一 次 交换 后 
2 l 4 9 0 3 5 8 7 6 
T 个 
i j 
第 二 次 交换 前 
2 1 E 9 0 3 5 8 7 6 
t 个 
i j 
第 二 次 交换 后 
2 1 4 5 0 3 9 8 7 6 
t t 
1 j 
第 三 次 交换 前 
2 l 4 5 0 3 9 8 7 6 
个 ft 


j i 


此 时 , i 和 j 已 经 交错 , 故 不 再 交换 。 分 割 的 最 后 一 步 是 将 枢纽 元 与 i 所 指向 的 元 率 交 
换 。 


在 与 枢纽 元 交换 后 
2 1 4 5 0 3 6 8 7 9 
t t 


i pivot 


在 最 后 一 步 当 枢纽 元 与 i 所 指向 的 元 素 交 换 时 , 我 们 知道 在 位 置 p< i 的 每 一 个 元 素 都 必然 
是 小 元 素 , 这 是 因为 或 者 位 置 p 包含 一 个 从 它 开始 移动 的 小 元 素 , 或 者 位 置 p 上 原来 的 大 元 素 
在 交换 期 间 被 置换 了 。 类 似 的 论断 指出 , 在 位 置 p >i 上 的 元 素 必然 都 是 大 元 素 。 

我 们 必须 考 忠 的 一 个 重要 的 细节 是 如 何 处 理 那 些 等 于 枢纽 元 的 元 素 。 问 题 在 于 当 i 遇 到 一 
个 等 于 枢纽 元 的 元 素 时 是 否 应 该 停止 ,以 及 当 j 遇 到 一 个 等 于 枢纽 元 的 元 素 时 是 否 应 该 停止 。 直 
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观 地 看 , i Mj 应 该 做 相同 的 工作 ,否则 分 割 将 出 现 偏向 一 方 的 倾向 。 例 如 , MR i 停止 而 jA 
停 , 那么 所 有 等 于 枢纽 元 的 元 素 都 将 被 分 到 S; 中 。 

为 了 明确 一 种 更 好 的 办 法 , 我 们 考虑 数组 中 所 有 的 元 素 都 相等 的 情况 。 如 果 i 和 j 都 停止 ， 
那么 在 相等 的 元 素 间 将 有 很 多 次 交换 。 虽 然 这 似乎 没有 什么 意义 , 但 是 其 正面 的 效果 则 是 i 和 上 j 
将 在 中 间 交 错 , 因此 当 枢 纽 元 被 替代 时 , 这 种 分 割 建立 了 两 个 几乎 相等 的 子 数组 。 归 并 排序 的 分 
析 告 诉 我 们 , 此 时 总 的 运行 时 间 为 O(N log N)。 

如 果 i Aj 都 不 停止 , 那么 就 应 该 有 相应 的 程序 防止 IT 和 j 越 出 数组 的 端点 , 不 进行 交换 的 
操作 。 虽 然 这 样 似乎 不 错 , 但 是 正确 的 实现 方法 却 要 把 枢纽 元 交换 到 i 最 后 到 过 的 位 置 , 这 个 位 
置 是 倒数 第 二 个 位 置 (或 最 后 的 位 置 , 这 依赖 于 精确 的 实现 )。 这 样 的 做 法 将 会 产生 两 个 非常 不 
均衡 的 子 数 组 。 如 果 所 有 的 关键 字 都 是 相同 的 , 那么 运行 时 间 则 是 O(N?*)。 对 于 预 排序 的 输入 
Win, 其 效果 与 使 用 第 一 个 元 素 作 为 枢纽 元 相同 。 它 花费 的 时 间 是 二 次 的 可 是 却 什么 事 也 没 干 ! 

这 样 我 们 就 发 现 , 进行 不 必要 的 交换 建立 两 个 均衡 的 子 数 组 要 比 变 干 冒险 得 到 两 个 不 均衡 
的 子 数组 好 。 因 此 , 如果 i 和 j 遇 到 等 于 枢纽 元 的 关键 字 , 那么 我 们 就 让 i 和 j 都 停止 。 对 于 这 
种 输入 , 这 实际 上 是 四 种 可 能 性 中 唯一 的 一 种 不 花费 二 次 时 间 的 可 能 。 

初 看 起 来 , 过 多 考虑 具有 相同 元 素 的 数组 似乎 有 些 轧 夺 。 难 道 有 人 偏 要 对 50 000 个 相同 
的 元 素 排序 吗 ? AHA? 我 们 记得 , 快速 排序 是 递归 的 。 设 有 1 000 000 个 元 素 , 其 中 有 50 000 
个 是 相同 的 (或 更 可 能 的 情况 是 其 排序 关键 字 都 相等 的 复杂 元 素 的 情况 )。 最 后 , 快速 排序 将 对 
这 50 000 个 元 素 进行 递归 调用 。 此 时 , 真正 重要 的 在 于 确保 这 50 000 个 相同 的 元 素 能 够 被 有 效 地 
排序 。 

7.7.3 小 数组 

对 于 很 小 的 数组 (N 科 20), 快速 排序 不 如 插 和 人 排序。 不仅 如 此 , 因为 快速 排序 是 递归 的 ,所 
以 这 样 的 情形 经 常 发 生 。 通 常 的 解决 方法 是 对 于 小 的 数组 不 使 用 递归 的 快速 排序 , 而 代 之 以 诸 
如 插入 排序 这 样 的 对 小 数组 有 效 的 排序 算法 。 使 用 这 种 策略 实际 上 可 以 节省 大 约 1596 (相对 于 不 
用 截止 的 做 法 而 自始至终 使 用 快速 排序 时 ) 的 运行 时 间 。 一 种 好 的 截止 范围 (cutoff range) 是 N= 
10, 虽然 在 5 到 20 之 间 任 一 截止 范围 都 有 可 能 产生 类 似 的 结果 。 这 种 做 法 也 避免 了 一 些 有 害 的 
退化 情形 ,如 取 三 个 元 素 的 中 值 而 实际 上 却 只 有 一 个 或 两 个 元 素 的 情况 。 

7.7.4 实际 的 快速 排序 例 程 

快速 排序 的 驱动 程序 见 图 7-12。 


* Quicksort algorithm. 


* @param a an array of Comparable items. 
* 


public static <AnyType extends Comparable<? super AnyType>> 
void quicksort( AnyType [ ] a ) 


quicksort( a, 0, a.length - 1 ); 


1 
2 
3 
4 
5 
6 
7 
8 
9 





7-12 ”快速 排序 的 驱动 程序 


这 种 例 程 的 一 般 形 式 是 传递 数组 以 及 被 排序 数组 的 范围 (left 和 right)。 要 处 理 的 第 一 个 
例 程 是 枢纽 元 的 选取 。 选 取 枢 纽 元 最 容易 的 方法 是 对 a[ left]、a[ right]、a[center] 适 当地 排 
序 。 这 种 方法 还 有 额外 的 好 处 , 即 该 三 元 素 中 的 最 小 者 被 分 在 al left], 而 这 正 是 分 割 阶段 应 该 
将 它 放 到 的 位 置 。 三 元 素 中 的 最 大 者 被 分 在 alright], 这 也 是 正确 的 位 置 , 因为 它 大 于 枢纽 元 。 
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因此 , 我 们 可 以 把 枢纽 元 放 到 al right - 1] 并 在 分 割 阶段 将 i 和 j 初始 化 为 left +1 Ml right - 2。 
因为 a[ left] 比 枢纽 元 小 , 所 以 将 它 用 作 j 的 警戒 标记 , 这 是 另 一 个 好 处 。 因 此 , 我 们 不 必 担 心 j 
跑 过 端点 。 由 于 i 将 停 在 那些 等 于 枢纽 元 的 关键 字 处 , 故 将 枢纽 元 存储 在 alright- 1] 则 提供 一 
个 警戒 标记 。 图 7-13 中 的 程序 进行 三 数 中 值 分 割 , 它 具 有 所 描述 的 一 切 副作用 。 似 乎 使 用 实际 
上 不 对 a[left] 、a[right] 、af center] 排 序 的 方法 计算 枢纽 元 只 不 过 效率 稍微 降低 一 些 , 但 是 很 
奇怪 , 这 将 产生 坏 结果 ( 见 练习 7.46)。 


ww 


* Return median of left, center, and right. 
* Order these and hide the pivot. 


* 
private static «AnyType extends Comparable«? super AnyType>> 
AnyType median3( AnyType [ ] a, int left, int right ) 
{ 
int center = ( left + right ) / 2; 
if( a[ center ].compareTo( a[ left ] ) « 0) 
swapReferences( a, left, center ); 
if( a[ right ].compareTo( a[ left ) ) < 0) 
swapReferences( a, left, right ); 
if( a[ right ].compareTo( a[ center ] ) < 0) 
swapReferences( a, center, right ); 


CON Oy UA A C DH 


// Place pivot at position right - 1 
swapReferences( a, center, right - 1 ); 
return a[ right - 1]; 





图 7-13 执行 三 数 中 值 分 割 法 的 程序 


7-14 的 程序 是 快速 排序 真正 的 核心 。 它 包括 划分 和 递归 调用 。 这 里 有 几 件 事 值 得 注意 。 
第 16 行 将 i 和 j 初始 化 为 比 它们 的 正确 值 超过 1 个 位 置 , 使 得 不 存在 特殊 情况 需要 考虑 。 此 处 
的 初始 化 依赖 于 三 数 中 值 分 割 法 有 一 些 副作用 的 事实 ; 如 果 按 照 简单 的 枢纽 元 策略 使 用 该 程序 
而 不 进行 修正 , 那么 这 个 程序 是 不 能 正确 运行 的 , 原因 在 于 i 和 j 开始 于 错误 的 位 置 而 不 再 存在 
j 的 警戒 标志 。 

第 22 行 的 交换 动作 为 了 速度 上 的 考虑 有 时 显 式 地 写 出 。 为 使 算法 速度 快 , 需要 强制 使 编译 
器 以 直接 插入 的 方式 编译 这 些 人 代码。 如果 swapReferences 是 final 方法 , 则 许多 编译 器 都 将 自动 
这 么 做 , 但 对 于 不 这 么 做 的 编译 器 , 差别 可 能 会 很 明显 。 

最 后 , 从 第 19 行 和 第 20 行 可 以 看 出 为 什么 快速 排序 这 么 快 。 算 法 的 内 部 循环 由 一 个 增 1/ 
减 1 运算 (运算 很 快 ) 、 一 个 测试 、 以 及 一 个 转移 组 成 。 该 算法 没有 像 在 归并 排序 中 那样 的 额外 技 
巧 , 不 过 , 这 个 程序 仍然 非常 巧妙 。 颇 具 诱 惑 力 的 做 法 是 将 第 16 行 到 第 25 行 用 图 7-15 中 的 语句 
RE, 不 过 这 不 能 正确 运行 , WA ali] =alj] = pivot 则 会 产生 一 个 无 限 循环 。 
7.7.5 快速 排序 的 分 析 

正如 归并 排序 那样 , 快速 排序 也 是 递归 的 , 因此 , 它 的 分 析 需 要 求解 一 个 递 推 公式 。 我 们 将 
对 快速 排序 进行 这 种 分 析 。 假 设 有 一 个 随机 的 枢纽 元 (不 用 三 数 中 值 分 割 法 ) 并 对 一 些小 的 文件 
不 设 截止 范围 。 和 归并 排序 一 样 , 取 T(0) = T(1) 71, 快速 排序 的 运行 时 间 等 于 两 个 递归 调用 
的 运行 时 间 加 上 花费 在 分 割 上 的 线性 时 间 ( 枢 纽 元 的 选取 仅 花 费 常数 时 间 )。 我 们 得 到 基本 的 快 
速 排序 关系 
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Internal quicksort method that makes recursive calls. 
Uses median-of-three partitioning and a cutoff of 10. 
@param a an array of Comparable items. 
@param left the left-most index of the subarray. 
* @param right the right-most index of the subarray. 
* 
/ 
private static «AnyType extends Comparable<? super AnyType>> 
void quicksort( AnyType [ ] a, int left, int right ) 
{ 


— 
SW O00 (C0 Ui A UG DYE 


— 


if( left + CUTOFF <= right ) 


( 
AnyType pivot = median3( a, left, right ); 


// Begin partitioning 
int i = left, j = right - 1; 
for( i ;) 
{ 


12 
13 
14 
15 
16 
17 
18 
19 


while( a[ ++i ].compareTo( pivot ) «0) { } 
while( a[ --j ].compareTo( pivot ) > 0) ( ) 
if( i<j) 

swapReferences( a, i, j ); 
else 

break; 


ho 
e 


) 
swapReferences( a, i, right - 1);  // Restore pivot 


quicksort( a, left, i - 1); // Sort small elements 
quicksort( a, i * 1, right );  // Sort large elements 
} 
else // Do an insertion sort on the subarray 
insertionSort( a, left, right ); 





图 7-14 快速 排序 的 主 例 程 


int i = left + 1, j = right ; 

for( i ;) 

{ 
while( af i ].compareTo( pivot ) < 0 ) i++; 
while( a[ j ].compareTo( pivot ) > 0 ) j-- 


if( i<j) 

swapReferences( a, i, j ); 
else 

break; 





图 7-15 对 快速 排序 小 的 改动 , 它 将 中 断 该 算法 


T(N)- T(i) * T(N- i-1) +eN (7.1) 
其 中 , i=1Si| 是 Si 中 元 素 的 个 数 。 我 们 将 考察 三 种 情况 。 
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PO 


最 坏 情 况 的 分 析 
枢纽 元 始终 是 最 小 元 素 。 此 时 i =0, 如 果 我 们 忽略 无 关 紧 要 的 T(0) = 1, 那么 递 推 关系 为 
T(N)= T(N- 1) *«N, N>1 (7.2) 
反复 使 用 方程 (7.2) ， 得 到 
T(N-D- T(N-2) * c(N-1) (7.3) 
T(N-2)5 T(N-3) * c(N-2) (7.4) 
T(2) = T(1) + c(2) (7.5) 
将 所 有 这 些 方程 相 加 , 得 到 
T(N)=T(D)+e 之 i= O(N’) (7.6) 
这 正 是 我 们 前 面 宣布 的 结果 。 
最 好 情况 的 分 析 


在 最 好 的 情况 下 , 枢纽 元 正好 位 于 中 间 。 为 了 简化 数学 推导 , 我 们 假设 两 个 子 数组 恰好 各 为 
原 数 组 的 一 半 大 小 , 虽然 这 会 给 出 稍微 过 高 的 估计 , 但 是 由 于 我 们 只 关心 大 O 〇 答案 , 因此 结果 还 
是 可 以 接受 的 。 
T(N) 2T(N/2)* cN (7.7) 
用 N 去 除 方程 (7.7) 的 两 边 ， 
TOV = TAN?) +e (7.8) 


反复 套用 这 个 方程 , 得 到 
T(N2) T(N/4) " 
NA NA € (7.9) 


T(NA) _ TNA) * (7.10) 


NA 


T(2)_TQ),. 
2 1 


将 从 (7.8) 到 (7.11) 的 方程 加 起 来 , 并 注意 到 它们 共有 log N 个 , 于 是 
TAN) TO) + (e N (7.12) 


(7.11) 


由 此 得 到 | 
T(N)=cN lg N+ N= O(N log N) (7.13) 

注意 , 这 和 归并 排序 的 分 析 完 全 相同 , 因此 , 我 们 得 到 相同 的 答案 。 
平均 情况 的 分 析 

这 是 最 困难 的 部 分 。 对 于 平均 情况 , 我 们 假设 对 于 Si, 每 一 个 的 大 小 都 是 等 可 能 的 , 因此 每 
个 大 小 均 有 概率 1AN。 这 个 假设 对 于 我 们 这 里 的 枢纽 元 选取 和 分 割 策略 实际 上 是 合理 的 , 不 过 ， 
对 于 某 些 其 他 情况 它 并 不 合理 。 那 些 不 保持 子 数 组 随机 性 的 分 割 策略 不 能 使 用 这 种 分 析 方 法 。 
有 趣 的 是 , 这 些 策略 看 来 导致 程序 在 实际 运行 中 花费 更 长 的 时 间 。 


由 该 假设 可 知 ，T(i) 从 而 TCN 一 i 1) 的 平均 值 为 (1AN) X, TG) HAHET. DER 


T(N) -g[ 3; TO)]+eN (7.14) 
WRA N 乘 以 方程 (7.14), WA 
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NT(N) = [È T(j) | + cN? (7.15) 
我 们 需要 除去 和 号 以 简化 计算 。 注 意 ， 可 以 再 套用 一 一 次 方程 (7.15), 得 到 
(N-DT(N-D=2[ > T(j) |] +¢(N-1)? (7.16) 
车 从 (7.15) 减 去 (7.16), 则 得 到 
NT(N) -(N- D T(N-1) -2T(N -D) 4 XIN - c (7.17) 
移 项 、 合并 并 除去 右边 无 关 紧 要 的 项 一 c， 得 到 
NT(N)= (N+1)T(N-1)+2cN (7.18) 


现在 我 人 有 了 一 个 只 用 T(N -1) 表 示 T(N) 的 公式 。 再 用 登 缩 公式 的 思路 , 不 过 方程 (7.18) 的 
形式 不 适合 。 为 此 , 用 N(N +1) 除 方程 (7.18): 


(7.19) 
N+1 N — 
MERIETE 
T(N-1). T(N-2) 2c | 
oe Nea ON (7.20) 
N-1 N-2 N=1 ' 
TT .2¢ 
—— + (7.22) 


将 方程 (7.19) 到 (7.22) 相 加 , 得 到 


Nel 
TIN) TD +9, yi (7.23) 


i3 1 


该 和 大 约 为 log.(N+1)+7y=-3Z2, 其 中 y220.577 叫做 欧 拉 常数 (Euler’'s constant), 于 是 


T(N) _ 
N41 = Olog N) (7.24) 
从 而 
T(N)= O(N log N) (7.25) 


虽然 这 里 的 分 析 看 似 复 杂 , 但 是 实际 上 并 不 复杂 一 一 一 旦 看 出 某 些 递 推 关 系 , 这 些 步骤 是 很 
自然 的 。 该 分 析 实际 上 还 可 以 再 进一步 。 上 面 描述 的 高 度 优化 形式 也 已 经 分 析 过 了 , 结果 的 获 
得 非常 困难 , 涉及 一 些 复杂 的 递归 和 高 深 的 数学 。 相 等 元 素 的 影响 也 被 仔细 地 进行 了 分 析 , 实际 
上 所 介绍 的 程序 就 是 这 么 做 的 。 

7.7.6 选择 问题 的 线性 期 望 时 间 算 法 

可 以 修改 快速 排序 以 解决 选择 问题 (selection problem), 该 问题 我 们 在 第 1 章 和 第 6 REAR 
过 。 当 时 , 通过 使 用 优先 队列 , 我 们 能 够 以 时 间 O(N +k log N) 找 到 第 上 个 最 大 (或 最 小 ) 元 。 
对 于 查找 中 值 的 特殊 情况 , 它 给 出 一 个 O(N log N) 算 法 。 

由 于 我 们 能 够 以 O(N log N) 时 间 给 数组 排序 , 因此 可 以 期 望 为 选择 问题 得 到 一 个 更 好 的 时 
间 界 。 我 们 介绍 的 查找 集合 S 中 第 & 个 最 小 元 的 算法 几乎 与 快速 排序 相同 。 事 实 上 , 其 前 三 步 
是 一 样 的 。 我 们 把 这 种 算法 叫做 快速 选择 (quickselect)。 令 |S;| 为 S; 中 元 素 的 个 数 。 快 速 选择 的 
步骤 如 下 : 

1. 如 果 |S|=1, 那么 = 1 并 将 S 中 的 元 素 作 为 答案 返回 。 如 果 正 在 使 用 小 数组 的 截止 
(cutoff) 方 法 且 | SI1 志 CuTOFF, 则 将 S 排序 并 返回 第 个 最 小 元 素 。 
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2. 选取 一 个 枢纽 元 vE S。 

3. 将 集合 S 一 1v| 分 割 成 S, 和 SS, 就 像 我 们 在 快速 排序 中 所 做 的 那样 。 

4. WR ESIS I, 那么 第 《个 最 小 元 必然 在 S, 中 。 在 这 种 情况 下 , 返回 quickselect ( S,, 
k)o NUR k -1* 15,1], 那么 枢纽 元 就 是 第 k 个 最 小 元 , 我 们 将 它 作 为 答案 返回 。 否则 ,这 第 k 
个 最 小 元 就 在 S; 中 , EÈ S, 中 的 第 (上 - 1 S;| - 1) 个 最 小 元 。 我 们 进行 一 次 递归 调用 并 返回 
quickselect (S,, k-|S,|-1). 

与 快速 排序 相 比 , 快速 选择 只 作 一 次 递归 调用 而 不 是 两 次 。 快速 选择 的 最 坏 情 况 和 快速 排 
序 的 相同 , 也 是 O(N?)。 直 观看 来 ， 这 是 因为 快速 排序 的 最 坏 情况 是 在 S, 和 S 有 一 个 是 空 的 
时 候 的 情况 ; FE, 快速 选择 就 不 是 真 的 节省 一 次 递归 调用 。 不 过 , 平均 运行 时 间 是 O(N), A 
体 分 析 类 似 于 快速 排序 的 分 析 , 我 们 将 它 留 作 一 道 练 习题 。 

快速 选择 的 实现 甚至 比 抽象 描述 的 还 要 简单 , 其 程序 见 图 7-16。 当 算法 终止 时 , 第 大 个 最 小 
元 就 在 位 置 &- 1 上 (因为 数组 开始 于 下 标 0)。 这 破坏 了 原来 的 排序 ; 如 果 不 希望 这 样 , 那么 必 
需要 做 一 - 份 拷贝 。 


** 
G Internal selection method that makes recursive calls. 
* Uses median-of-three partitioning and a cutoff of 10. 
* Places the kth smallest item in a[k-1]. 
* @param a an array of Comparable items. 
* @param left the left-most index of the subarray. 
* @param right the right-most index of the subarray. 
* @param k the desired index (1 is minimum) in the entire array. 
* 
/ 
private static «AnyType extends Comparable«? super AnyType»» 
void quickSelect( AnyType [ ] a, int left, int right, int k ) 
{ 


Oo >、 全 wh 一 


if( left + CUTOFF <= right ) 
{ 
AnyType pivot = median3( a, left, right ); 


// Begin partitioning 
int i = left, j = right - 1; 
for( ; ; ) 
( 
while( a[ ++i ].compareTo( pivot ) <0) { } 
while( a[ --j ].compareTo( pivot ) > 0) { } 
if( i<j) 
swapReferences( a, i, j ); 
else 
break; 


) 


swapReferences( a, i, right - 1);  // Restore pivot 


if( k <= i) 
quickSelect( a, left, i - 1, k ); 
else if(k»i*1) 





图 7-16 快速 选择 的 主 例 称 
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quickSelect( a, i + 1, right, k ); 


) 


else // Do an insertion sort on the subarray 


insertionSort( a, left, right ); 





E] 7-16 (£X) 


使 用 三 数 中 值 选取 枢纽 元 的 方法 使 得 最 坏 情 况 发 生 的 机 会 几乎 是 微不足道 的 。 然 而 , 通过 
仔细 选择 枢纽 元 , 我 们 可 以 消除 二 次 的 最 坏 情 况 而 保证 算法 是 O(N) 的 。 可 是 这 么 做 的 额外 开 
销 是 相当 大 的 , 因此 最 终 的 算法 主要 在 于 理论 上 的 意义 。 在 第 10 章 我 们 将 考查 选择 问题 的 线性 
时 间 最 坏 情形 的 算法 , 我 们 还 将 看 到 选取 枢纽 元 的 一 个 有 趣 的 技巧 , 它 导 致 在 实践 中 多 少 要 更 快 
一 些 的 选择 算法 。 


7.8 排序 算法 的 一 般 下 界 


虽然 我 们 得 到 一 些 O(N log N) 的 排序 算法 , BE, 尚 不 清楚 我 们 是 否 还 能 做 得 更 好 。 本 节 
我 们 证 明 , 任何 只 用 到 比较 的 排序 算法 在 最 坏 情况 下 都 需要 Q(N log N) 次 比较 , 因此 归并 排序 
和 堆 排 序 在 一 个 常数 因子 范围 内 是 最 优 的 。 该 证 明 可 以 扩展 到 证 明 对 只 用 到 比较 的 任意 排序 算 
法 都 需要 Q(N log N) 次 比较 , 其 至 平均 情况 也 是 如 此 。 这 意味 着 快速 排序 在 相差 一 个 常数 因子 
的 范围 内 平均 是 最 优 的 。 

特别 地 , 我 们 将 证 明 下 列 结果 : 只 用 到 比较 的 任何 排序 算法 在 最 坏 情 况 下 都 需要 [log( N!) | 
次 比较 , 并 平均 需要 log N1!1) 次 比较 。 我 们 假设 所 有 N 个 元 素 是 互 异 的 , 因为 任何 排序 算法 都 必 
须要 在 这 种 情况 下 正常 运行 。 
决策 树 

决策 树 (decision tree) 是 用 于 证 明 下 界 的 抽象 概念 。 在 我 们 这 里 ,决策 树 是 一 棵 二 叉 树 。 每 个 
节点 表示 在 元 素 之 网 一 组 可 能 的 排序 , 它 与 已 经 进行 的 比较 一 致 。 比 较 的 结果 是 树 的 边 。 

图 7-17 中 的 决策 树 表示 将 三 个 元 素 a、6b Me 排序 的 算法 。 算 法 的 初始 状态 在 根 处 (我 们 将 
可 互 换 地 使 用 术语 状态 和 节点 )。 没 有 进行 比较 , 因此 所 有 的 顺序 都 是 合法 的 。 这 个 特定 的 算法 
进行 的 第 一 次 比较 是 比较 a 和 06。 两 种 比较 的 结果 导致 两 种 可 能 的 状态 。 如 果 aco, 那么 只 有 
三 种 可 能 性 被 保留 。 如 果 算 法 到 达 节 点 2, 那么 它 将 比较 a 和 c。 其 他 算法 可 能 会 做 不 同 的 工作 ; 
不 同 的 算法 可 能 有 不 同 的 决策 树 。 若 a > c, 则 算法 进入 状态 S。 由 于 只 存在 一 种 相 容 的 顺序 , A 
此 算法 可 以 终止 并 报告 它 已 经 完成 了 排序 。 若 c<c, 则 算法 尚 不 能 终止 , 因为 存在 两 种 可 能 的 
WF, 它 还 不 能 肯定 哪 种 是 正确 的 。 在 这 种 情况 下 , 算法 还 将 需要 一 次 比较 。 

通过 只 使 用 比较 进行 排序 的 每 一 种 算法 都 可 以 用 决策 树 表示 。 当 然 , 只 有 输入 数据 非常 少 
的 情况 画 决 策 树 才 是 可 行 的 。 由 排序 算法 所 使 用 的 比较 次 数 等 于 最 深 的 树叶 的 深度 。 在 我 们 的 
例子 中 , 该 算法 在 最 坏 的 情况 下 使 用 了 三 次 比较 。 所 使 用 的 比较 的 平均 次 数 等 于 树叶 的 平均 深 
度 。 由 于 决策 树 很 大 , 因此 必然 存在 一 些 长 的 路 径 。 为 了 证 明 下 界 , 需要 证 明 某 些 基本 的 树 的 性 
质 。 

引 理 7.1 令 工 是 深度 为 4 的 二 叉 树 , WT REA 27 片 树叶 。 

WEAR: 

用 数学 归纳 法 证 明 。 如 果 d =0, 则 最 多 存在 一 片 树叶 ,因此 基准 情况 为 真 。 若 d >0, MWR 
们 有 一 个 根 , 它 不 可 能 是 树叶 , 其 左 子 树 和 右 子 树 中 每 一 个 的 深度 最 多 是 4 - 1。 由 归纳 假设 , 每 
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a<b<c b<a<c 
a<c<b b<c<a 
e<asb c<b<a 
acc 9 c<a b<c c<b 
a<b<c c<a<b b<a<e 
o 9 
0 Q 
b«c c<b a<c c<a 
(10) D 
图 7-17 三 元 素 排序 的 决策 树 
一 棵 子 树 最 多 有 24 ! 片 树叶 ,因此 总 数 最 多 2 片 树叶 ,由 此 该 引 理 得 证 。 ES 
5187.2 具有 工 片 树叶 的 二 叉 树 的 深度 至 少 是 [log Llo 
WERA: E 


由 前 面 的 引 理 立即 推出 。 
定理 7.6 只 使 用 元 素 间 比 较 的 任何 排序 算法 在 最 坏 情况 下 至 少 需要 [ log(N1) ] 次 比较 。 
证 阴 : 
对 N 个 元 素 排 序 的 决策 树 必然 有 NN! 片 树叶 。 从 上 面 的 引 理 即 可 推出 该 定理 。 m 
定理 7.7 只 使 用 元 素 间 比较 的 任何 排序 算法 均 需 要 AN log N) 次 比较 。 
证 明 : 
由 前 面 的 定理 可 知 , 需要 log( N!) 次 比较 。 
log( N!) =log(N (N-1)(N-2)=-(2)(1)) 
=log N+log(N—1)+log(N -2)+:…+log 2+ log 1 
>log N + log (N—-1) + log( N-2) +++ + log (N72) 


> 人 log 5 


>N log N- A 

— ((N log N) B 

这 种 类 型 的 下 界 论断 ， 当 用 于 证 明 最 坏 情 形 结果 时 , 有 时 叫做 信息 -理论 下 界 Cinformation- 

theoretic lower bound)。 一 般 定理 说 的 是 , 如 果 存 在 P 种 不 同 的 可 能 情况 要 区 分 , 而 问题 是 YES/ 

NO 的 形式 , 那么 通过 任何 算法 求解 该 问题 在 某 种 情形 下 总 需要 | log P | 个 问题 。 对 于 任何 基于 比 

较 的 排序 算法 的 平均 运行 时 间 , 证 明 类 似 的 结果 也 是 可 能 的 。 这 个 结果 由 下 列 引 理 导出 , 我 们 将 
它 留 作 练习 : 具有 上 片 树叶 的 任意 二 叉 树 的 平均 深度 至 少 为 log Lo 
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7.9 Bx HER 


虽然 我 们 在 上 一 节 证 明了 任何 只 使 用 比较 的 一 般 排序 算法 在 最 坏 情 况 下 需要 运行 时 间 QC NV 
log N), 但 是 记 住 , 在 某 些 特殊 情况 下 以 线性 时 间 进 行 排序 仍然 是 可 能 的 。 

一 个 简单 的 例子 是 桶 式 排序 (bucket sort)。 为 使 桶 式 排序 能 够 正常 工作 , 必须 要 有 一 些 附 加 
的 信息 。 输 入 数据 AL, Asse, An 必须 只 由 小 于 M 的 正 整数 组 成 (显然 还 可 以 对 其 进行 扩充 )。 
如 果 是 这 种 情况 , 那么 算法 很 简单 : 使 用 一 个 大 小 为 M 的 称 为 count 的 数组 , 它 被 初始 化 为 全 0。 
于 是 , count 有 M 个 单元 或 称 桶 , 这 些 桶 初始 化 为 空 。 当 读 A; 时 , count[ A;] 增 1。 在 所 有 的 输入 
数据 读 人 后 , 扫描 数组 count, 打印 出 排序 后 的 表 。 该 算法 用 时 OCM +N); 其 证 明 留 作 练 习 。 如 
果 M 为 O(N), 那么 总 量 就 是 O(N)。 

虽然 这 个 算法 似乎 打破 了 下 界 , 但 事实 上 并 没有 ,因为 它 使 用 了 比 简 单 比较 更 为 强大 的 操 
作 。 通 过 使 适当 的 桶 增值 , 算法 在 单位 时 间 内 实质 上 执行 了 一 个 M- 路 比较 。 这 类 似 于 用 在 可 扩 
散 列 上 的 策略 ( 见 节 5.6)。 显 然 这 不 属于 那 种 下 界 业已 证 明 的 模型 。 

不 过 , 该 算法 确实 提出 了 用 于 证 明 下 界 的 模型 的 合理 性 问题 。 这 个 模型 实际 上 是 一 个 强 模 
型 , 因为 通用 的 排序 算法 不 能 对 于 它 可 以 期 望 见 到 的 输入 类 型 做 假设 , 而 是 必须 仅仅 基于 排序 信 
息 做 一 些 决策 。 很 自然 , 如 果 存 在 额外 的 可 用 信息 , 我 们 应 该 有 望 找到 更 为 有 效 的 算法 , 否则 这 
额外 的 信息 就 被 浪费 了 。 

尽管 桶 式 排 序 看 似 太 一 般 而 用 处 不 大 , 但 是 实际 上 却 存在 许多 其 输入 只 是 一 些小 整数 的 情 
UL, 使 用 像 快速 排序 这 样 的 排序 方法 真 的 是 小 题 大 作 了 。 


7.10 外 部 排序 


迄今 为 止 , 我 们 考查 过 的 所 有 算法 都 需要 将 输入 数据 装 人 内 存 。 然 而 , 存在 一 些 应 用 程序 ， 
它们 的 输入 数据 量 太 大 装 不 进 内 存 。 本 节 将 讨论 一 些 外 部 排序 (external sorting) 算 法 , 它们 是 设 
计 用 来 处 理 数 量 很 大 的 输入 数据 的 。 
7.10.1 为 什么 需要 一 些 新 的 算法 

大 部 分 内 部 排序 算法 都 用 到 内 存 可 直接 寻 址 的 事实 。 希 尔 排 序 用 一 个 时 间 单 位 比较 元 素 
a[ ij 和 ali- h.]。 堆 排序 用 一 个 时 间 单 位 比较 元 素 a[i] 和 afi * 2+1]。 使 用 三 数 中 值 分 割 法 的 
快速 排序 以 常数 个 时 间 单 位 比较 a[ left], alcenter]M a[right]。 如 果 输入 数据 在 磁带 上 , 那么 
所 有 这 些 操作 就 失去 了 它们 的 效率 ,因为 磁带 上 的 元 素 只 能 被 顺序 访问 。 即 使 数据 在 磁盘 上 , 由 
于 转动 磁盘 和 移动 磁头 所 需 的 延迟 , 仍然 存在 实际 上 的 效率 损失 。 

为 了 看 到 外 部 访问 究竟 有 多 慢 , 可 建立 一 个 大 的 随机 文件 , 但 不 能 太 大 以 至 装 不 进 主 存 。 将 
该 文件 读 和 人 并 用 一 种 有 效 的 算法 对 其 排序 。 将 该 输入 数据 进行 排序 所 花费 的 时 间 与 将 其 读 人 所 
花费 的 时 间 相 比 必 然 是 无 足 轻 重 的 , 尽管 排序 是 O(N log N) 操 作 而 读 人 数据 只 不 过 花费 OCN) 
时 间 。 
7.10.2 外 部 排序 模型 | 

各 种 各 样 的 海量 存储 装置 使 得 外 部 排序 比 内 部 排序 对 设备 的 依赖 性 要 严重 得 多 。 我 们 将 
考虑 的 一 些 算法 在 磁带 上 工作 ， 而 磁带 可 能 是 最 受 限 制 的 存储 媒体 。 由 于 访问 磁带 上 一 个 元 
素 需 要 把 磁带 转动 到 正确 的 位 置 , 因此 磁带 只 有 以 (两 个 方向 上 ) 连 续 的 顺序 才能 够 被 有 效 地 访 
问 。 

假设 至 少 有 三 个 磁带 驱动 器 进行 排序 工作 。 我 们 需要 两 个 驱动 器 执行 有 效 的 排序 ， 而 第 三 
个 驱动 器 进行 简化 的 工作 。 如 果 只 有 一 个 磁带 驱动 器 可 用 , 那么 就 产生 了 一 个 问题 : 任何 算法 都 
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将 需要 Q(N?) 次 磁带 访问 。 
7.10.3 简单 算法 

基本 的 外 部 排序 算法 使 用 归并 排序 中 的 合并 算法 。 设 有 四 盘 磁 带 ,T,,，T,，,，Ts1，Tsz, E 
们 是 两 盘 输 入 磁带 和 两 盘 输 出 磁带 。 根 据 算法 的 特点 , 磁带 a 和 磁带 4b 或 者 用 作 输 入 磁带 , 或 者 
用 作 输 出 磁带 。 设 数据 最 初 在 T, E, 并 设 内 存 可 以 一 次 容纳 (和 排序 ) M 个 记录 。 一 种 自然 的 
第 一 步 做 法 是 从 输入 磁带 一 次 读 人 M 个 记录 , 在 内 部 将 这 些 记录 排序 , 然后 再 把 这 些 排 过 序 的 
记录 交替 地 写 到 Ty RM T 上。 我们 将 把 每 组 排 过 序 的 记录 叫做 一 个 顺 串 (run)。 做 完 这 些 之 后 ， 
倒 回 所 有 的 磁带 。 设 我 们 的 输入 与 希 尔 排序 的 例子 中 的 输入 数据 相同 。 





现在 T, fn T2 都 包含 一 些 顺 串 。 我 们 将 每 个 磁带 的 第 一 个 顺 串 取出 并 将 二 者 合并 , 把 结果 
Ba Tat, 该 结果 是 一 个 二 倍 长 的 顺 串 。 注 意 , 合并 两 个 排 过 序 的 表 是 简单 的 操作 ， 几 乎 不 需 
RAT, 因为 合并 是 在 T, TI Ts 前 进 时 进行 的 。 然 后 , 我 们 再 从 每 盘 磁 带 取出 下 一 个 顺 串 , 合 
JF, 并 将 结果 写 到 T,，, 上 。 继 续 这 个 过 程 , 交替 使 用 Tu 和 TS, 直到 TX Tez 为 空 。 此 时 , 或 者 
Ti 和 T,435] 972 , 或 者 剩 下 一 个 顺 串 。 对 于 后 者 , 我 们 把 剩 下 的 顺 串 拷贝 到 适当 的 磁带 上 。 将 全 
部 四 盘 磁 带 倒 回 , 并 重复 相同 的 步骤 , 这 一 次 用 两 盘 a 磁带 作为 输入 , 两 盘 b 磁带 作为 输出 , 结 
果 得 到 一 些 4M 的 顺 串 。 继 续 这 个 过 程 直 到 得 到 长 为 N 的 一 个 顺 串 。 

该 算法 将 需要 [log( N/M) | 趟 工作 ， 外 加 一 趟 初始 的 顺 串 构造 。 例 如 , 若 我 们 有 1 000 万 个 记 
R., 每 个 记录 128 个 字 节 , 并 有 4 兆 字 节 的 内 存 , 则 第 一 趟 将 建立 320 个 顺 串 。 此 时 再 需要 九 趟 
以 完成 排序 。 我 们 刚才 的 例子 再 需要 [log 13/3] 3 BOE, 见 下 图 所 示 。 
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7.10.4 多 路 合并 

如 果 我 们 有 额外 的 磁带 , 可 以 减少 将 输入 数据 排序 所 需要 的 趟 数 , 通过 将 基本 的 (2- 路 ) 合 并 
扩充 为 开路 合并 就 能 做 到 这 一 点 。 

两 个 顺 串 的 合并 操作 通过 将 每 一 个 输入 磁带 转 到 每 个 顺 串 的 开头 来 进行 。 然 后 ,找到 较 小 
的 元 素 , 把 它 放 到 输出 磁带 上 , 并 将 相应 的 输入 磁带 向 前 推进 。 如 果 有 盘 输入 磁带 , 那么 这 种 
方法 以 相同 的 方式 工作 , 唯一 的 区 别 在 于 , AER k 个 元 素 中 最 小 的 元 素 稍微 复杂 一 些 。 我 们 可 
以 通过 使 用 优先 队列 找 出 这 些 元 素 中 的 最 小 元 。 为 了 得 出 下 一 个 写 到 磁盘 上 的 元 素 , 我 们 进行 
一 次 deleteMin 操作 。 将 相应 的 磁带 向 前 推进 ， 如 果 在 输入 磁带 上 的 顺 串 尚未 完成 , 那么 将 新 元 
素 插入 到 优先 队列 中 。 仍 然 利 用 前 面 的 例子 , 我 们 将 输入 数据 分 配 到 三 盘 磁 带 上 。 





在 初始 顺 串 构造 阶段 之 后 , 使 用 路 合并 所 需要 的 赵 数 为 [log, (N/M)], 因为 在 每 趟 合并 
中 顺 串 达到 上 倍 大 小 。 对 于 上 面 的 例子 , 公式 成 立 , 因为 [logs 13431-2, MERIA 10 盘 磁 带 ， 
HA k=5, 而 前 一 他 的 大 例子 需要 的 趟 数 将 是 [ logs3201= 4。 
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7.10.5 多 相合 并 

上 一 节 讨 论 的 -路 合并 方案 需要 使 用 2k 盘 磁 带 , 这 对 某 些 应 用 极为 不 便 。 通 过 只 使 用 让 + 
1 盘 磁 带 也 有 可 能 完成 排序 的 工作 。 作 为 例子 , 我 们 阐述 只 用 三 盘 磁 带 如 何 完成 2- 路 合并 。 

设 有 三 盘 磁 带 Ti 、T: 和 T3, 在 Ti 上 有 一 个 输入 文件 , 它 将 产生 34 个 顺 串 。 一 种 选择 是 在 
T; 和 T, 的 每 一 盘 磁 带 中 放 入 17 个 顺 串 。 然 后 可 以 将 结果 合并 到 T, E, 得 到 一 盘 有 17 个 顺 串 
的 磁带 。 由 于 所 有 的 顺 串 都 在 一 盘 磁 带 上 , 因此 现在 必须 把 其 中 的 一 些 顺 串 放 到 T, 上 以 进行 另 
外 的 合并 。 执 行 该 合并 的 逻辑 方式 是 将 前 8 个 顺 串 从 T, 拷贝 到 T; 并 进行 合并 。 这 样 的 效果 是 
对 于 我 们 所 做 的 每 一 趟 合并 又 附加 了 另外 的 半 趟 工作 。 

另 一 种 选择 是 把 原始 的 34 个 顺 串 不 均衡 地 分 成 两 份 。 设 把 21 个 顺 串 放 到 T, 上 而 把 13 个 
MPKA T. 上 。 然 后 , 将 13 个 顺 串 合并 到 T, E, 之 后 磁带 T. 就 变 成 了 空 磁带 。 此 时 , 我 们 可 
以 倒 回 磁带 Ti 和 T, 然后 将 具有 13 TL BS Ti 和 8 个 顺 串 的 T; 合并 到 T, 上 。 此 时 , 我 们 
合并 8 个 顺 串 直到 T; 用 完 为 止 , 这 样 , 在 Ti 上 将 留 下 5 个 顺 串 而 在 T, 上 则 有 8 个 顺 串 。 然 
后 , 我 们 再 合并 T, MT, 等 等 。 下 面 的 图 表 显 示 在 每 趟 合并 之 后 每 盘 磁 带 上 的 顺 串 的 个 数 。 

初始 顺 TtT? T,*T; TtT TT, TI+Tz Ti+T3 T*T; 

BEA 之 后 之 后 之 后 之 后 之 后 之 后 之 后 
T, 0 13 5 0 — 3 1 0 1 
T; 2 8 0 5 2 0 1 0 
Ts B 0 8 3 0 2 1 0 


顺 串 最 初 的 分 配 有 很 大 的 关系 。 例 如 , 若 22 个 顺 串 放 在 T; b, 12 个 在 T, E, 则 第 一 趟 合 
并 后 我 们 得 到 T, 上 12 个 顺 串 以 及 T; 上 的 10 个 顺 串 。 在 下 一 次 合并 后 ，T3 上 有 10 个 顺 串 而 
T, 上 有 2 个 顺 串 。 此 时 , 进展 的 速度 慢 了 下 来 , 因为 在 T, 用 完 之 前 只 能 合并 两 套 顺 串 。 这 时 
Ti 有 8 个 顺 串 而 T; 有 两 个 顺 串 。 同 样 , 我 们 只 能 合并 两 个 顺 串 , ART, 有 6 个 顺 串 上 且 T 有 2 
个 顺 串 。 再 经 过 3 趟 合并 之 后 ，T: 还 有 2 个 顺 串 而 其 余 磁 带 均 已 没有 任何 内 容 。 我 们 必须 将 T; 
中 的 一 个 顺 串 拷贝 到 另外 一 盘 磁 带 上 ,然后 结束 合并 。 

事实 上 , 我 们 给 出 的 第 一 次 分 配 是 最 优 的 。 如 果 顺 串 的 个 数 是 一 个 斐 波 那 契 数 Fy, 那么 分 
配 这 些 顺 串 最 好 的 方式 是 把 它们 分 裂 成 两 个 斐 波 那 契 数 Fy 1 和 FS 2s BM, 为 了 将 顺 串 的 个 数 
补足 成 一 个 斐 波 那 契 数 就 必须 用 一 些 哑 顺 串 (dummy runs) 来 填补 磁带 。 我 们 把 如 何 将 一 组 初始 
顺 串 分 放 到 磁带 上 的 具体 做 法 留 作 练习 。 

可 以 把 上 面 的 做 法 扩充 到 &- 路 合并 , 此 时 需要 阶 斐 波 那 契 数 用 于 分 配 顺 串 ,， 其 中 A 阶 斐 
波 那 契 数 定义 为 FIO(N)=F4OG(ON-1)+FOCON-2)+…+F(ON-)， 辅 以 适当 的 初始 条 件 
F®(N)=0, 0€ Nx: -2, F?(k-1)71. 
7.10.6 替换 选择 

最 后 我 们 将 要 考虑 的 是 顺 串 的 构造 。 迄 今 我 们 已 经 用 到 的 策略 是 所 谓 的 最 简 可 能 : 读 人 
尽 可 能 多 的 记录 并 将 它们 排序 , 再 把 结果 写 到 某 个 磁带 上 。 这 看 起 来 像 是 最 佳 可 能 的 处 理 , 直到 
实现 只 要 第 一 个 记录 被 写 到 输出 磁带 上 , 它 所 使 用 的 内 存 就 可 以 被 另外 的 记录 使 用 。 如 果 输 入 
磁带 上 的 下 一 个 记录 比 我 们 刚刚 输出 的 记录 大 , 它 就 可 以 被 放 人 顺 串 中 。 

利用 这 种 想法 , 我 们 可 以 给 出 产生 顺 串 的 一 个 算法 , 该 方法 通常 称 为 替换 选择 (replacement 
selection)。 开 始 ，M 个 记录 被 读 人 内 存 并 放 到 一 个 优先 队列 中 。 我 们 执行 一 次 deleteMin, 把 最 
小 ( 值 ) 的 记录 写 到 输出 磁带 上 , 再 从 输入 磁带 读 人 下 一 个 记录 。 如 果 它 比 刚刚 写 出 的 记录 大 , 可 
以 把 它 添加 到 优先 队列 中 , 否则 , 不 能 把 它 放 入 当前 的 顺 串 。 由 于 优先 队列 少 一 个 元 素 , 因此 ， 
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可 以 把 这 个 新 元 素 存 人 优先 队列 的 死 区 (dead space), 直到 顺 串 完成 构建 , 而 该 新 元 素 用 于 下 一 个 
顺 串 。 将 一 个 元 素 存 人 死 区 的 做 法 类 似 于 在 堆 排序 中 的 做 法 。 我 们 继续 这 样 的 步骤 直到 优先 队 
列 的 大 小 为 零 , 此 时 该 顺 串 构建 完成 。 我 们 使 用 死 区 中 的 所 有 元 素 通 过 建立 一 个 新 的 优先 队列 
开始 构建 一 个 新 的 顺 串 。 图 7-18 解释 我 们 一 直 在 使 用 的 这 个 小 例子 的 顺 串 构建 过 程 , 其 中 M= 
3。 死 元 素 以 星 号 标示 。 


ERA PAY 3 个 元 率 输出 下 一 个 读 人 的 元 素 
h[1]  h[2]  h[3) 
MBI Ig 94 81 11 96 
81 94 96 81 12" 
94 96 12* 94 35 
96 35 12° 96 17 
17 35 12 顺 串 1 终 重建 堆 
顺 串 2 12 35 17 12 99 
17 35 99 17 28 
28 99 35 28 58 
35 99 58 35 41 
41 99 58 41 15 
58 99 15* 58 磁带 末 
99 15 99 
15° MA 2 s& 重建 堆 
顺 串 3 15 15 


Pg 7-18 顺 串 构建 的 例 


在 这 个 例子 中 , 替换 选择 只 产生 3 个 顺 串 ,这 与 通过 排序 得 到 5 个 顺 串 不 同 。 正 因为 如 此 ， 
3- 路 合并 经 过 一 趟 而 非 两 趟 合并 而 结束 。 如 果 输 入 数据 是 随机 分 布 的 , 那么 可 以 证 明 蔡 换 选 择 产 
生平 均 长 度 为 2M 的 顺 串 。 对 于 我 们 所 举 的 大 例子 , 预计 为 160 个 顺 串 而 不 是 320 个 顺 串 ， 因 
此 , 5- 路 合并 需要 进行 4 趟 。 在 这 种 情况 下 , 我 们 一 趟 也 没有 节省 , 不 过 在 幸运 时 是 可 以 节省 的 ， 
我 们 可 能 有 125 个 或 更 少 的 顺 串 。 由 于 外 部 排序 花费 的 时 间 太 多 , 因此 节省 的 每 一 趟 都 可 能 对 运 
行 时 间 产 生 显著 的 影响 。 

我 们 已 经 看 到 , 替换 选择 可 能 做 得 并 不 比 标准 算法 更 好 。 然 而 , 输入 数据 常常 从 已 排序 或 几 
乎 已 排序 开始 ,此 时 替换 选择 仅仅 产生 少数 非常 长 的 顺 串 ,而 这 种 类 型 的 输入 通常 要 进行 外 部 排 
F, 这 就 使 得 替换 选择 具有 特别 的 价值 。 


小 结 


对 于 Java 中 的 泛 型 排序 , 其 中 对 象 的 类 型 未 知 , 此 时 归并 排序 可 能 是 最 好 的 选择 ,因为 它 使 
用 的 元 素 比较 次 数 最 少 , 而 元 素 比 较 是 昂贵 的 操作 。 对 于 大 部 分 以 各 种 语言 进行 的 其 他 内 部 排 
序 的 应 用 , 选用 的 方法 不 是 插入 排序 、 希 尔 排 序 , 就 是 快速 排序 ,它们 的 选用 主要 是 根据 输入 的 
大 小 来 决定 的 。 图 7-19 显示 每 个 算法 (将 整数 排序 ) 处 理 各 种 不 同 大 小 的 输入 时 (在 一 台 相 对 较 
慢 的 计算 机 上 ) 的 运行 时 间 。 
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希 尔 排序 xn 快速 排序 
O(N?) O(N?^)(7) O(N log N) O(N log N) 
0.000001 : 0.000003 

0.000106 0.000052 
0.011240 0.000750 
1.047 0.010215 


0.139542 
1.7967 














快速 排序 (opt. ) 
O(N log N} 





0.000002 
0.000023 
0.000316 
0.004129 
0.052790 














110.492 
0.6154 


图 7-19 不 同 的 排序 算法 的 比较 (所 有 的 时 间 均 以 秒 计 ) 


这 里 的 数据 选择 成 N 个 整数 的 一 些 随 机 排列 , 而 给 出 的 时 间 仅 仅 是 排序 的 实际 时 间 。 图 7-2 
给 出 的 程序 用 于 插入 排序 。 希 尔 排序 使 用 7.4 节 程 序 , 该 程序 改 为 使 用 Sedgewick 增 量 运 行 。 基 
于 数 以 百 万 计 次 的 排序 , 大 小 从 100 到 2 千 5 百 万 不 等 , 使 用 这 种 增 量 的 希 尔 排 序 期 望 的 运行 时 
间 猜 测 为 O(N”)。 堆 排序 例 程 与 7.5 节 中 的 相同 。 表 中 给 出 两 种 快速 排序 算法 。 第 一 种 使 用 
简单 的 枢纽 元 选择 策略 , 不 进行 截止 操作 。 幸 运 的 是 , 输入 是 随机 的 。 第 二 种 使 用 三 数 中 值 分 割 
法 ,截止 范围 为 10。 进 一 步 的 优化 还 是 有 可 能 的 。 比 如 我 们 可 以 写 一 个 内 艇 的 三 数 中 值 例 程 而 
不 是 使 用 方法 调用 , 也 可 以 编写 一 个 非 递归 的 快速 排序 。 还 存在 其 他 一 些 方法 对 代码 进行 优化 ， 
它们 的 实现 相当 复杂 。 我 们 已 做 了 实际 尝试 以 有 效 地 编写 所 有 的 例 程 , 不 过 , 性 能 从 机 器 到 机 器 
多 少 会 有 些 变化 。 

高 度 优化 的 快速 排序 算法 即使 对 于 很 少 的 输入 数据 也 比 希 尔 排序 快 。 快 速 排序 的 改进 算法 
仍然 有 O(N?) 的 最 坏 情 况 ( 有 一 道 练习 让 你 构造 一 个 小 例子 ), 但 是 , 这 种 最 坏 情 形 出 现 的 机 会 
是 微不足道 的 , 以 至 于 不 能 成 为 影响 算法 的 因素 。 如 果 需 要 对 大 量 的 数据 排序 , 那么 快速 排序 则 
是 应 该 选择 的 方法 。 但 是 , 永远 都 不 要 图 省 事 而 轻易 把 第 一 个 元 素 用 作 枢 纽 元 。 对 输入 数据 是 
随机 的 假设 就 是 不 安全 。 如 果 不 想 过 多 地 考虑 这 个 问题 ,那么 就 使 用 希 尔 排 序 。 希 尔 排序 有 些 
小 缺 欠 , 不 过 还 是 可 以 接受 的 , 特别 是 需要 简单 明了 的 时 候 。 和 看 尔 排序 的 最 坏 情 况 也 只 不 过 是 
O(N*^); 这 种 最 坏 情 况 发 生 的 几率 也 是 很 小 的 。 

堆 排 序 要 比 希 尔 排序 慢 , 尽管 它 是 一 个 带 有 明显 紧 次 内 循环 的 O(N log N) 算 法 。 对 该 算法 
的 深入 考查 揭示 ,为 了 移动 数据 , 堆 排 序 要 进行 两 次 比较 。 由 Floyd 提出 的 改进 算法 移动 数据 基 
本 上 只 需要 一 次 比较 , 不 过 实现 这 种 改进 算法 使 得 代码 多 少 要 长 一 些 。 我 们 把 它 留 给 读者 来 决 
定 这 种 附加 的 编程 代价 用 以 提高 速度 是 否 值得 (练习 7.51)。 插 入 排序 只 用 在 小 的 或 是 非常 接近 
排 了 序 的 输入 数据 上 。 我 们 没有 提 到 归并 排序 ,因为 它 的 性 能 对 于 基本 类 型 的 主 存 排序 不 如 快 
速 排序 那么 好 , 而 且 它 的 编程 一 点 也 不 省 事 。 不 过 我 们 已 经 看 到 , 归并 却 是 外 部 排序 的 中 心思 
想 。 | 


练习 题 
7.1 ”使 用 插入 排序 将 序列 3, 1, 4, 1, 5,9,2, 6, 5 排序 。 
7.2 ”如 果 所 有 的 元 素 都 相等 , 那么 插入 排序 的 运行 时 间 是 多 少 ? 
7.3 ” 设 交 换 元 素 a[ilfüalitk], 它们 最 初 是 反 序 的 。 证 明 被 去 掉 的 逆序 最 少 为 1 个 最 多 
为 2k ES 1 个 。 
7.4 ” 写 出 使 用 增 量 11, 3, 7} 对 输入 数据 9, 8, 7, 6, 5, 4, 3, 2, 1 运行 希 尔 排序 得 到 的 结果 。 
7.5 a. 使 用 2- 增 量 序列 |1, 2| 的 希 尔 排 序 的 运行 时 间 是 多 少 ? 
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b. 证 明 , 对 任意 的 N, 存在 一 个 3- 增 量 序列 , 使 得 希 尔 排 序 以 O(N”) 时 间 运 行 。 
c. 证 明 , 对 任意 的 N, 存在 一 个 6- 增 量 序列 , 使 得 希 尔 排序 以 O(N*”) 时 间 运 行 。 
‘a. 证 明 , 使 用 形 如 1,c，c?,…, c’ 的 增 量 , 希 尔 排序 的 运行 时 间 为 Q(N ), 其 中 , c 为 
任 一 整数 。 


"b. EH, 对 于 这 些 增 量 , 平均 运行 时 间 为 ON?) 


"7.8 


7.9 


a x 
— m 
WwW N 


7.21 


7.22 


证 明 , 车 一 个 HERE R- HEE, 则 它 仍 保持 是 k- HEF BS. 
证 明 , 使 用 由 Hibbard 建议 的 增 量 序列 的 希 尔 排序 在 最 坏 情 形 下 的 运行 时 间 是 Q(N””)。 
提示 : 可 以 证 明 当 所 有 的 元 素 不 是 0 就 是 1 时 希 尔 排 序 这 种 特殊 情形 的 时 间 界 。 如 果 i 
HURA AL, h-i sees Ay ny HREBA, 则 可 置 a[i]=1, 否则 置 为 0。 
确定 希 尔 排 序 对 于 下 述 情况 的 运行 时 间 
a. 排 过 序 的 输入 数据 
“b. 反 序 排列 的 输入 数据 
下 述 两 种 对 图 7-4 所 编写 的 希 尔 排 序 例 程 的 修改 影响 最 坏 情 形 的 运行 时 间 吗 ? 
a. 如 果 gap 是 偶数 , 则 在 第 11 行 前 从 gap mm 1。 
b. 如 果 gap 是 偶数 , 则 在 第 11 行 前 往 gap 加 1。 
指出 堆 排序 如 何 处 理 输入 数据 142, 543, 123, 65, 453, 879, 572, 434, 111, 242, 811, 
102。 
对 于 了 予 排序 的 输入 , 堆 排 序 的 运行 时 间 是 多 少 ? 
证 明 存 在 这 样 的 输入 , 它 使 得 堆 排序 中 的 每 一 个 percolateDown 一 直行 进 到 树叶 (提示 : 
向 后 进行 )。 
重 写 堆 排序 , 使 得 只 对 从 low 到 high 范围 的 项 进行 排序 , 其 中 low 和 high 作为 附加 参 
数 被 传递 。 | 
用 归并 排序 将 3, 1, 4,1, 5, 9, 2, 6 排序 。 
不 使 用 递归 如 何 实现 归并 排序 ? 
确定 下 列 情况 下 归并 排序 的 运行 时 间 
a. 已 排序 的 输入 
b. 反 序 排列 的 输入 
c. 随机 的 输入 
在 归并 排序 的 分 析 中 是 不 考虑 常数 的 。 证 明 , 归并 排序 在 最 坏 情 形 下 用 于 比较 的 次 数 
WONT log N1-28 ^! +1, 
AZ% BELLA REA 3 的 快速 排序 将 3, 1, 4, 1, 5, 9,2, 6, 5, 3, 5 排序 。 
使 用 本 章 中 的 快速 排序 实现 方法 , 确定 下 列 输入 数据 的 快速 排序 运行 时 间 
a. 已 排序 的 输入 
b. 反 序 排列 的 输入 
c. 随机 的 输入 
当 枢纽 元 被 选 作 下 列 元 素 时 重 做 练习 7.20 
a. 第 一 个 元 素 
b. 前 两 个 不 同 元 素 中 的 最 大 者 
c. 一 个 随机 元 素 
“d. 集合 中 所 有 元 素 的 平均 值 
a. 对 于 本 章 中 快速 排序 的 实现 方法 ， 当 所 有 的 关键 字 都 相等 时 它 的 运行 时 间 是 多 少 ? 
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7.23 


7.24 


T.29 


7.26 


To 


$573 


b. 假设 我 们 改变 分 割 策 略 使 得 当 找 到 一 个 与 枢纽 元 有 相同 关键 字 的 元 素 时 i 和 j 都 不 
停止 ， 为 了 保证 快速 排序 正常 工作 ,需要 对 程序 做 哪些 修改 ?” 当 所 有 的 关键 字 都 相 
SAY, 运行 时 间 是 多 少 ? 

c. 假设 我 们 改变 分 割 策略 ,使 得 在 一 个 与 枢纽 元 相同 的 关键 字 处 i 停止 , 但 是 j 在 类 似 
的 情形 下 却 不 停止 。 为 了 保证 快速 排序 正常 工作 需要 对 程序 做 哪些 修改 ? 当 所 有 的 
关键 字 都 相等 时 , 快速 排序 的 运行 时 间 是 多 少 ? 

设 选择 数组 中 间 位 置 上 的 关键 字 作为 枢纽 元 。 这 是 否 使 得 快速 排序 将 不 可 能 需要 二 次 

时 间 ? 

构造 20 个 元 素 的 一 个 排列 使 得 对 于 三 数 中 值 分 割 且 和 截止 为 3 的 快速 排序 方法 该 排列 尽 

可 能 地 差 。 

课文 中 的 快速 排序 使 用 两 个 递归 调用 。 删 除 一 个 调用 如 下 : 

a. 重 写 程序 使 得 第 2 个 递归 调用 无 条 件 地 成 为 快速 排序 的 最 后 一 行 。 通 过 苏 倒 if/ 
else 并 在 对 insertionSort 调用 之 后 返回 来 做 到 这 一 点 。 

b. 通过 写 一 个 while 循环 并 改变 left 来 除去 尾 递归 。 

继续 练习 7.25, 在 问题 (a) 之 后 ， 

a. 执行 一 次 测试 , 使 得 较 小 的 子 数组 由 第 一 个 递归 调用 处 理 , 而 较 大 的 子 数组 由 第 二 
个 递归 调用 处 理 。 

b. 通过 写 一 个 while 循环 并 在 必要 时 交换 left 或 right 以 除去 尾 递归 。 

c. 证 明 递 归 调 用 的 次 数 在 最 坏 情 形 下 是 对 数 级 的 量 。 

设 递 归 快 速 排 序 从 驱动 程序 接收 int 型 参数 depth, 它 的 初始 值 近似 为 2log No 

a. 修改 递归 快速 排序 使 其 在 递归 之 层 达 到 depth 时 对 当前 的 子 数 组 调用 heapsort{ 提 
m: 当 进 行 递归 调用 时 使 depth 减 1; 当 它 为 0 时 切换 到 heapsort)。 

b. 证 明 该 算法 最 坏 情 形 运行 时 间 为 O(N log N)。 

c. 通过 实验 确定 对 heapsort 调用 的 频率 。 

d. 连同 使 用 练习 7.25 中 的 删除 尾 递 归 一 起 实现 本 题 的 方法 。 

e. 解释 为 什么 练习 7.26 中 的 方法 不 再 是 必需 的 。 

当 实现 快速 排序 时 ， 如 果 数 组 包含 许多 重复 元 , 那么 可 能 更 好 的 方法 是 执行 3 路 划分 

(划分 成 小 于 、 等 于 以 及 大 于 枢纽 元 的 三 部 分 元 素 ) 以 进行 更 小 的 递归 调用 。 设 采用 有 

如 compareTo 方法 提供 的 3 路 比较 。 

a. 给 出 一 个 算法 , 该 算法 只 使 用 N -1 次 3 路 比较 而 将 一 个 N 元 素 子 数组 实施 3 路 适 
当 的 划分 。 如 果 有 d 项 等 于 枢纽 元 , 那么 可 以 使 用 a 次 附加 的 Comparable 交换 ,多 
于 2 路 分 割 算法 (提示 : 随 着 i 和 jj 彼此 相向 移动 , RAS ACK, 如 下 所 示 ): 
EQUAL SMALL UNKNOWN LARGE EQUAL 

1 J 

b. WA, 使 用 上 面 的 算法 将 只 含有 d 个 不 同 值 的 N 元 素数 组 排序 花费 O(dN) 时 间 。 

编写 一 个 程序 实现 选择 算法 。 

求解 下 列 递 推 关 系 : T(N)=(1/N)[ 327 T(i)]+ceN, T(0)=0。 

如 果 一 切 具 有 相等 关键 字 的 元 素 都 保持 它们 在 输入 时 呈现 的 顺序 , 那么 这 种 排序 算法 

就 叫做 稳定 (stable) 的 。 本 章 中 的 排序 算法 哪些 是 稳定 的 ?哪些 不 是 ?为 什么 ? 

设 给 定 N 个 已 排序 的 元 素 , 后 面 跟 有 f(N) 个 随机 顺序 的 元 素 。 如 果 F(N) 是 下 列 情 

况 , 那么 如 何 将 全 部 数据 排序 ? 
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a. f(N) - O(1) 
b. f(N) = O(log N) 
c. f(N)=O(/N) 
"d. 对 于 全 部 数据 ，F(N) 多 大 仍然 能 够 以 O(N) 时 间 排 序 ? 
证 明 , 在 N 个 元 素 已 排序 的 表 中 找 出 一 个 元 素 X 的 任何 算法 都 需要 Alog N) 次 比较 。 
利用 Stirling 公式 N! 2(NZe)" V2xN 给 出 log (NN!) 的 精确 估计 。 
"a. 两 个 排 过 序 的 N 个 元 素 的 数组 有 多 少 种 合并 的 方法 ? 
'b. 给 出 合并 两 个 N 个 元 素 的 排 过 序 的 表 所 需要 的 比较 次 数 的 非 平 凡 下 界 。 
考虑 下 列 将 6 个 数 排序 的 算法 : 
。 使 用 算法 A 将 前 3 个 数 排序 。 
。 使 用 算法 B 将 后 3 个 数 排序 。 
。 使 用 算法 C 将 两 个 已 排序 的 数组 合并 。 
证 明 这 个 算法 是 次 最 优 的 , 与 算法 A、B、C 的 选择 无 关 。 
给 出 一 个 线性 时 间 算 法 将 N 个 分 数 排序 , 它们 的 分 子 和 分 母 都 是 在 1 和 N 之 间 的 整 
数 。 
设 数组 A 和 8B 都 是 已 排序 的 并 且 均 含有 NN 个 元 素 。 给 出 一 个 O(log N) 算 法 找 出 AU 
B 的 中 位 数 。 
BUB N 个 元 素 的 数组 只 包含 两 个 不 同 的 关键 字 true 和 false。 给 出 一 个 O(N ) 算 法 重 
新 排列 这 些 元 素 使 得 所 有 false 的 元 素 都 排 在 true 的 元 素 的 前 面 。 只 能 使 用 常数 附加 
空间 。 
设 有 N 个 元 素 的 数组 包含 三 个 不 同 的 关键 字 true, false 和 maybe。 给 出 一 个 O(N) 算 
法 重新 排列 这 些 元 素 使 得 所 有 false 的 元 素 都 排 在 maybe 元 素 的 前 面 , 而 maybe TTA 
true 元 素 的 前 面 。 只 能 使 用 常数 附加 空间 。 
a. 证 明 , 任何 基于 比较 的 算法 将 4 个 元 素 排序 均 需 5 次 比较 。 
b. 给 出 一 种 算法 用 5 次 比较 将 4 个 元 素 排 序 。 
a. 证 明 使 用 任何 基于 比较 的 算法 将 5 个 元 素 排序 都 需要 7 次 比较 。 
"b. 给 出 一 个 算法 用 7 次 比较 将 $ 个 元 素 排 序 。 
写 出 一 个 高 效 的 希 尔 排序 算法 并 比较 当 使 用 下 列 增 量 序列 时 的 性 能 : 
a. 希 尔 的 原始 序列 
b. Hibbard 的 增 量 


c. Knuth 的 增 基 n= 53 +1) 


d. Gonnet 的 增 量 : ALS, 而 h,- LAE JG h;-2 Sh, =1) 


e. Sedgewick 的 增 量 。 

实现 优化 的 快速 排序 算法 并 用 下 列 组 合 进行 实验 : 

a. 枢纽 元 : 第 一 个 元 素 , 中 间 的 元 素 , 随机 的 元 素 , 三 数 中 值 , 五 数 中 值 。 

b. 截止 值 从 0 到 20. 

编写 一 个 例 程 读 入 两 个 用 字母 表示 的 文件 并 将 它们 合并 到 一 起 , 形成 第 三 个 也 是 用 字 
母 表示 的 文件 。 

设 我 们 实现 三 数 中 值 例 程 如 下 : 找 出 a[left], a[ center] M alright]j 的 中 值 , 并 将 它 与 
a[right | 交换 。 以 通常 的 分 割 方法 进行 , 开始 时 i 在 left 处 且 j 在 right 一 1 处 (而 不 是 





Download at http://www.pinSi.com/ 


216 g7* 





left- 1 fü right- 2). 
a. 设 输入 为 2, 3, 4, …，N-1，N,，1。 对 于 该 输入 , 这 种 快速 排序 算法 的 运行 时 间 是 
多 少 ? 

b. 设 输入 数据 呈 反 序 排列 , 对 于 这 样 的 输入 , 本 题 的 快速 排序 算法 的 运行 时 间 又 是 多 
^e? 

7.47 证 明 , 任何 基于 比较 的 排序 算法 平均 都 需要 Q(N log N) 次 比较 。 

7.48 给 定 一 个 数组 , 该 数组 包含 N 个 元 素 。 我 们 想 要 确定 是 否 存 在 两 个 数 它们 的 和 等 于 给 
定 的 数 K。 例 如 ,如 果 输 入 是 8, 4, 1, 6 K 是 10, 则 答案 为 yes(4 和 6)。 一 个 数 可 
以 被 使 用 两 次 。 解 答 下 列 各 问 : 
a. 给 出 求解 该 问题 的 O(N?) RE. 
b. 给 出 求解 该 问题 的 O(N log N) 算 法 (提示 : 首先 将 各 项 排序 。 然 后 , 可 以 以 线性 时 

间 解 决 该 问题 )。 

c. 将 两 种 方案 编码 并 比较 算法 的 运行 时 间 。 

7.49 ”对 于 4 个 数 重复 练习 7.48。 尝 试 设计 一 个 OCN? log N) 算 法 (提示 : 计算 两 个 元 素 所 有 
可 能 的 和 。 把 这 些 可 能 的 和 排序 。 然 后 按 练习 7.48 来 处 理 )。 

7.50 ”对 于 3 个 数 重复 练习 7.48。 党 试 设计 一 个 O(N?) BR. 

7.51 考虑 下 面 percolateDown 的 做 法 。 在 节点 X 处 有 一 个 空 穴 (hole)。 普 通 的 例 程 是 比较 X 
的 儿子 然后 把 比 我 们 企图 要 放置 的 元 素 大 的 儿子 上 移 到 X 处 (在 (max) 堆 的 情形 下 )， 
由 此 将 空 穴 下 推 ; 当 把 新 元 素 放 到 空 穴 中 稳妥 时 我 们 终止 算法 。 另 一 种 做 法 是 将 元 素 
上 移 且 空 穴 尽 可 能 地 下 移 , 不 用 测试 新 单元 是 否 能 够 被 插 人 。 这 将 使 得 新 单元 被 放置 
到 一 片 树叶 上 并 可 能 破坏 堆 序 性 质 ; 为 了 修复 堆 序 , 以 通常 的 方式 将 新 单元 上 滤 。 写 出 
包含 该 想法 的 例 程 ,并 与 标准 的 堆 排序 实现 方法 的 运行 时 间 进 行 比 较 。 

7.52 提出 一 种 算法 只 用 两 盘 磁 带 对 一 个 大 型 文件 进行 排序 。 

7.53 a. 通过 buildHeap 最 多 使 用 2N 次 比较 的 事实 证 明 堆 个 数 的 下 界 N17 2 人。 
b. 利用 Stirling 公式 展开 该 界 。 
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第 7 章 


第 8 章 不 相交 集 类 


在 这 一 章 , 我 们 描述 解决 等 价 问题 的 一 种 有 效 数据 结构 。 这 种 数据 结构 实现 起 来 简单 ,每 个 
例 程 只 需要 几 行 代码 , 而 且 可 以 使 用 一 个 简单 的 数组 。 它 的 实现 也 非常 地 快 , 每 种 操作 只 需要 常 
数 平均 时 间 。 从 理论 上 看 , 这 种 数据 结构 还 是 非常 有 趣 的 ,因为 它 的 分 析 极 其 困难 ; 最 坏 情 形 的 
函数 形式 不 同 于 我 们 已 经 见 过 的 任何 形式 。 对 于 这 种 不 相交 集 数 据 结构 , 我 们 将 

。 讨论 如 何 能 够 以 最 少 的 编程 代价 实现 。 

。 使 用 两 个 简单 的 观察 结果 极 大 地 增加 它 的 速度 。 

。 分 析 一 种 快速 的 实现 方法 的 运行 时 间 。 

。 介 绍 一 个 简单 的 应 用 。 


8.1 等 价 关 系 


若 对 于 每 一 对 元 素 (a, b), a, bE S, aRb 或 者 为 true 或 者 为 false, WHERE S 上 定义 关 
系 (relation)R。 如 果 aRb 是 true, 则 说 a 与 5 有 关系 。 

等 价 关系 (equivalence relation) 是 满足 下 列 三 个 性 质 的 关系 R: 

1.( 自 反 性 ) 对 于 所 有 的 a€ S, aRa。 

2.( 对 称 性 )aRb 当 且 仅 当 bRa。 

3.( 传 递 性 ) 若 aRb FL bRc WW aRc. 

我 们 将 考虑 几 个 例子 。 

关系 和 不 是 等 价 关 系 。 虽 然 它 是 自 反 的 , 即 ae 委 ai; 可 传递 的 , 即 由 a<b Mb<c Hasc, 
但 它 不 是 对 称 的 , 因为 从 ax b 并 不 能 得 出 6 委 a。 

电气 连通 性 (electrical connectivity) 是 一 个 等 价 关 系 , 其 中 所 有 的 连接 都 是 通过 金属 导线 完成 
的 。 该 关系 显然 是 自 反 的 , 因为 任何 元 件 都 是 自身 相连 的 。 如 果 a 电气 连接 到 b, 那么 b 必然 也 
电气 连接 到 ca。 最 后 , 如 果 a CRBS, 而 5 又 连接 到 c, 那么 a 连接 到 c。 因 此 , 电气 连接 是 一 个 
等 价 关 系 。 

如 果 两 个 城市 位 于 同一 个 国家 , 那么 定义 它们 是 有 关系 的 。 容 易 验 证 这 是 一 个 等 价 关系 。 
如 时 能 够 通过 公路 从 城镇 a 旅行 到 6, 则 设 a 与 5 有 关系 。 如 果 所 有 的 道路 都 是 双向 行驶 的 , 那 
么 这 种 关系 也 是 一 个 等 价 关 系 。 


8.2 动态 等 价 性 问题 


给 定 一 个 等 价 关 系 一 , 一 个 自然 的 问题 是 对 任意 的 a HO, 确定 是 否 a 一 6b。 如 果 将 等 价 关系 
存储 为 布尔 变量 的 一 个 二 维 数组 , 那么 当然 这 个 工作 可 以 以 常数 时 间 完 成 。 问 题 在 于 , 关系 通常 
不 是 明显 而 是 相当 隐秘 地 定义 的 。 

作为 一 个 例子 , RES 个 元 素 的 集合 |aei ，az，as，as，a5j 上 定义 一 个 等 价 关 系 。 此 时 存在 
25 对 元 素 , 它们 的 每 一 对 或 者 有 关系 或 者 没有 关系 。 然 而 , 信息 al 一 az，a3 一 a4，c5 一 a1，a4 一 
a, 意味 着 每 一 对 元 素 都 是 有 关系 的 。 我 们 希望 能 够 迅速 推断 出 这 些 关 系 。 

- ' 个 元 素 a€ S 的 等 价 类 (equivalence class) S 的 一 个 子 集 , 它 包 含 所 有 与 a 有 (等 价 ) 关 系 的 
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THK. ER, 等 价 类 形成 对 S 的 一 个 划分 : S 的 每 一 个 成 员 恰好 出 现在 一 个 等 价 类 中 。 为 确定 是 
否 < 一 5, 我 们 只 需 验 证 a o 是 否 都 在 同一 个 等 价 类 中 。 这 给 我 们 提供 了 解决 等 价 问题 的 方法 。 

输入 数据 最 初 是 N 个 集合 的 类 (collection), 每 个 集合 含有 一 个 元 素 。 初 始 的 描述 是 所 有 的 
关系 均 为 false( 自 反 的 关系 除外 )。 每 个 集合 都 有 一 个 不 同 的 元 素 , 从 而 SNS =O; 这 使 得 这 
些 集合 不 相交 (disjoint)。 

此 时 , 有 两 种 操作 允许 进行 。 第 一 种 操作 是 find, 它 返回 包含 给 定 元 素 的 集合 ( 即 等 价 类 ) 的 
名 字 。 第 二 种 操作 是 添加 关系 。 如 果 我 们 想 要 添加 关系 a—b, 那么 我 们 首先 要 看 a Mb ERE 
经 有 关系 。 这 可 以 通过 对 a Mo 执行 find 并 检验 它们 是 否 在 同一 个 等 价 类 中 来 完成 。 如 果 它 们 
不 在 同一 类 中 , 那么 我 们 使 用 求 并 操作 union, 这 种 操作 把 含有 a lb 的 两 个 等 价 类 合并 成 一 个 
新 的 等 价 类 。 从 集合 的 观点 来 看 ，U 的 结果 是 建立 一 个 新 集合 Se = S;U Si, 去 掉 原来 两 个 集合 而 
保持 所 有 的 集合 的 不 相交 性 。 由 于 这 个 原因 , 常常 把 做 这 项 工作 的 算法 叫做 不 相交 集合 的 union/ 
find 算法 。 

该 算法 是 动态 (dynamic) 的 , 因为 在 算法 执行 的 过 程 中 , 集合 可 以 通过 union 操作 而 发 生 改 
变 。 这 个 算法 还 必然 是 联机 (on-line) 操 作 : 当 find 执行 时 , 它 必须 给 出 答案 算法 才能 继续 进行 。 
另 一 种 可 能 是 脱 机 (off-line) 算 法 , 该 算法 需要 观察 全 部 的 union 和 find 序列 。 它 对 每 个 find 给 
出 的 答案 必须 和 所 有 被 执行 到 该 find 的 union 一 致 , 但 是 该 算法 在 看 到 所 有 这 些 问题 以 后 才能 
够 给 出 它 的 所 有 的 答案 。 这 种 差别 类 似 于 参加 一 次 笔试 ( 它 一 般 是 脱 机 的 一 一 你 只 能 在 规定 的 时 
间 用 完 之 前 给 出 答卷 ) 和 一 次 口试 ( 它 是 联机 的 , 因为 你 必须 回答 当前 的 问题 , 然后 才能 继续 下 一 
个 问题 )。 

注意 , 我 们 不 进行 任何 比较 元 素 相关 的 值 的 操作 , 而 是 只 需要 知道 它们 的 位 置 。 由 于 这 个 原 
A, 我 们 假设 所 有 的 元 素 均 已 从 0 到 N 一 1 顺序 编号 并 且 编 号 方法 容易 由 某 个 散 列 方案 确定 。 于 
E, 开始 时 我 们 有 S;= 1), 2720 8I N— 1.9 

我 们 的 第 二 个 观察 结果 是 , 由 find 返回 的 集合 的 名 字 实 际 上 是 相当 任意 的 。 真 正 重要 的 关 
ETF: find(a) = = find(b) 为 true 当 且 仅 当 a 和 hb 在 同一 个 集合 中 。 

这 些 操作 在 许多 图 论 问题 中 是 重要 的 , 在 一 些 处 理 等 价 (或 类 型 ) 声 明 的 编译 程序 中 也 很 重 
要 。 我 们 将 在 后 面 讨 论 一 个 应 用 。 

解决 动态 等 价 问题 的 方案 有 两 种 。 一 种 方案 保证 指令 find 能 够 以 常数 最 坏 情 形 运 行 时 间 执 
行 , 而 另 一 种 方案 则 保证 指令 union 能 够 以 常数 最 坏 情形 运行 时 间 执 行 。 业 已 证 明 二 者 不 能 同时 
以 常数 最 坏 情形 运行 时 间 执 行 。 | 

我 们 将 简要 讨论 第 一 种 处 理 方法 。 为 使 find 操作 快速 , 可 以 在 一 个 数组 中 保存 每 个 元 素 的 
等 价 类 的 名 字 。 此 时 , find 就 是 简单 的 O(1) 查 找 。 设 我 们 想 要 执行 union(a, b), 并 设 a 在 等 价 
类 i 中 而 b 在 等 价 类 j; 中 。 此 时 我 们 扫 找 该 数组 , 将 所 有 的 i 都 改变 成 }。 不 过 , 这 次 扫描 要 花费 
B(N) 时 间 。 于 是 , 连续 N — 1 次 union 操作 (这 是 最 大 值 , 因为 此 时 每 个 元 素 都 在 同一 个 集合 
中 ) 就 要 花费 B@(N?) 的 时 间 。 如 果 存 在 Q(N?) 量 级 的 find 操作 , 那么 这 个 性 能 很 好 , 因为 在 整 
个 算法 进行 过 程 中 每 个 union 或 find 操作 的 运行 时 间 总 共 也 就 是 O(1)。 如 果 find 操作 没有 那 
么 多 , 那么 这 个 界 是 不 可 接受 的 。 

一 种 想法 是 将 所 有 在 同一 个 等 价 类 中 的 元 素 放 到 一 个 链表 中 。 这 在 更 新 的 时 候 会 节省 时 间 ， 
因为 我 们 不 必 搜 索 整 个 数组 。 但 是 由 于 在 算法 过 程 中 仍然 有 可 能 执行 8( N?) 量 级 的 等 价 类 更 





O 这 反映 数组 下 标 从 0 开始 的 事实 。 
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新 , 因此 它 本 身 并 不 能 单独 减少 渐进 运行 时 间 。 

如 果 我 们 还 要 跟踪 每 个 等 价 类 的 大 小 , 并 在 执行 union 时 将 较 小 的 等 价 类 的 名 字 改 成 较 大 的 
等 价 类 的 名 字 , 那么 对 于 N - 1 次 合并 的 总 的 时 间 开 销 为 O(N log N)。 其 原因 在 于 , 每 个 元 素 
可 能 让 它 的 等 价 类 最 多 改变 log NK, 因为 每 次 它 的 等 价 类 改变 时 它 的 新 的 等 价 类 至 少 是 它 的 原 
来 等 价 类 的 两 倍 大 。 使 用 这 种 方法 , 任意 顺序 的 M 次 find 和 直到 N - 1 次 的 union 最 多 花费 
O(M + N log N) 时 间 。 

在 本 章 的 其 余部 分 , 我 们 将 考查 union/find 问题 的 一 种 解法 , 其 中 union 操作 容易 但 find 操 
作 要 难 一 些 。 即 使 如 此 , 任意 顺序 的 最 多 M 次 find 和 直到 N - 1 次 union 的 运行 时 间 将 只 比 
O(M + 和 NN) 多 一 点 。 


8.3 ”基本 数据 结构 


记 住 , 我 们 的 问题 不 要 求 find 操作 返回 任何 特定 的 名 字 , 而 只 是 要 求 当 且 仅 当 两 个 元 素 属 
于 相同 的 集合 时 作用 在 这 两 个 元 素 上 的 find 返回 相同 的 名 字 。 一 种 想法 是 可 以 使 用 树 来 表示 每 
一 个 集合 , 因为 树 上 的 每 一 个 元 素 都 有 相同 的 根 。 这 样 , 该 根 就 可 以 用 来 命名 所 在 的 集合 。 我 们 
将 用 树 表示 每 一 个 集合 。( 我 们 知道 , 树 的 集合 叫做 森林 (forest)。) 开 始 时 每 个 集合 含有 一 个 元 
素 。 我 们 将 要 使 用 的 这 些 树 不 一 定 必须 是 二 叉 树 , 但 是 表示 它们 要 容易 ,因为 我 们 需要 的 唯一 信 
息 就 是 一 个 父 链 (parent link)。 集 合 的 名 字 由 根 处 的 节点 给 出 。 由 于 只 需要 父 节 点 的 名 字 ,， 因此 
我 们 可 以 假设 这 棵 树 被 非 显 式 地 存储 在 一 个 数组 中 : 数组 的 每 个 成 员 s[ ij 表示 元 素 i WLR. 
如 果 i ER, 那么 s[i] = - 1。 在 图 8-1 的 森林 中 , 对 于 0 委 ;i<8, sli] = -1。 正 如 在 二 叉 堆 中 
那样 , 我 们 也 将 显 式 地 画 出 这 些 树 , 注意 , 此 时 正在 使 用 的 是 一 个 数组 。 图 8-1 表达 了 这 种 显 式 
的 表示 方法 , 为 方便 起 见 , 我 们 将 把 根 的 父 链 垂直 画 出 。 


oooooooo 


8-1 8 个 元 素 , 初始 时 在 不 同 的 集合 上 


为 了 执行 两 个 集合 的 union 运算 , 我 们 通过 使 一 棵 树 的 根 的 父 链 链接 到 另 一 棵 树 的 根 节点 来 
合并 两 棵 树 。 显 然 , 这 种 操作 花费 常数 时 间 。 图 8-2 .图 8-3 和 图 8-4 分 别 表示 在 union(4, 5). 
union(6, 7) 和 union(4, 6) 每 一 个 操作 之 后 的 森林 ,其 中 , 我 们 采纳 了 在 union(x, Y) 后 新 的 根 是 x 
的 约定 。 最 后 的 森林 的 非 显 式 表 示 见 图 8-5。 


ooooa OC 


Kd 8-2 在 union(4, 5) 之 后 


ooooa à 


8-3 在 union(6, 7) 之 后 
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OOOOE 


8-4 在 union(4,6) 之 后 
8-5 上 面 的 树 的 非 显 式 表 示 


对 元 素 x 的 一 次 find(x) 操 作 通过 返回 包含 x 的 树 的 根 而 完成 。 执 行 这 次 操作 花费 的 时 间 与 
代表 x 的 节点 的 深度 成 正比 , 当然 这 要 假设 我 们 以 常数 时 间 找 到 表示 x 的 节点 。 使 用 上 面 的 方 
法 , 有 可 能 建立 一 棵 深度 为 N — 1 的 树 , 因此 一 次 find 的 最 坏 情 形 运 行 时 间 是 O(N)。 一 般 情 
BL, 运行 时 间 是 对 连续 混合 使 用 M 个 指令 来 计算 的 。 在 这 种 情况 下 ，M 次 连续 操作 在 最 坏 情 形 
下 可 能 花费 O(MN ) 时 间 。 

图 8-6 到 图 8-9 中 的 程序 表示 基本 算法 的 实现 , 假设 差错 检验 已 经 执行 。 在 我 们 的 例 程 中 ， 
这 些 union 是 在 一 些 树 的 根 上 进行 的 。 有 时 候 运算 是 通过 传递 任意 两 个 元 素 进 行 的 ,并 使 得 
union 执行 两 次 find 以 确定 它们 的 根 。 





public class DisjSets 


public DisjSets( int numElements ) 
( /* Figure 8.7 */ } 
public void union( int rootl, int root2 ) 


( /* Figures 8.8 and 8.13 */ ) 
public int find( int x ) 
( /* Figures 8.9 and 8.15 */ ) 


private int [ ] s; 





图 8-6 不 相交 集合 的 类 架构 

平均 情形 分 析 是 相当 困难 的 。 最 起 码 的 问题 是 答案 依赖 于 如 何 定义 (对 union HR YE TAT BE) F 
均 。 例 如 , 在 图 8-4 的 森林 中 , 我 们 可 以 说 , 由 于 有 5 棵 树 ， 因 此 下 一 个 union 就 存在 5.4=20 个 
等 可 能 的 结果 (因为 任意 两 棵 不 同 的 树 都 可 能 被 union)。 当 然 , 这 个 模型 的 含义 在 于 ,只 存在 全 


的 机 会 使 得 下 一 次 union 涉及 大 树 。 另 一 种 模型 可 能 会 认为 在 不 同 的 树 上 任意 两 个 元 素 间 的 所 
有 union 都 是 等 可 能 的 , 因此 大 树 比 小 树 更 有 可 能 在 下 一 次 union 中 涉及 。 在 上 面 的 例子 中 , 有 


11 的 机 会 大 树 在 下 一 次 union 中 会 被 涉及 , 因为 (忽略 对 称 性 ) 存 在 6 种 方法 合并 10,，1,， 2, 3 中 


的 两 个 元 素 以 及 16 种 方法 将 14, 5, 6, 7| 中 的 一 个 元 素 与 10, 1, 2, 3} 中 的 一 个 元 素 合 并 。 还 存 
在 更 多 的 模型 ,而 在 何者 为 最 好 的 问题 上 没有 一 般 的 一 致 见解 。 平 均 运行 时 间 依 赖 于 模型 ; 对 于 
三 种 不 同 的 模型 , 时 间 界 B(M), B(M log N) 以 及 6@( MN ) 实 际 上 已 经 证 明 , 不 过 , 最 后 的 那个 
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* Construct the disjoint sets object. 


* @param numElements the initial number of disjoint sets. 
* 


public DisjSets( int numElements ) 


( 
s * new int [ numElements ]; 
for( int 1 = 0; i « s.length; i++ ) 
sf ij = -1; 


Q o O6 - OV tA AWD ~ 


— 





8-7 不 相交 集合 的 初始 化 例 程 


— 

* Union two disjoint sets. 

* For simplicity, we assume rootl and root2 are distinct 
* and represent set names. 

* (param rootl the root of set 1. 

* @param root2 the root of set 2. 

* 


public void union( int rootl, int root2 ) 
{ 
s[ root2 } = rootl; 


} 


= C) XO O5 - Oy UA WD ~ 





— — 


图 8-8 union( 不 是 最 好 的 方法 ) 


** 


* Perform a find. 
* Error checks omitted again for simplicity. 
* @param x the element being searched for. 
* @return the set containing x. 
*/ 
public int find( int x ) 
{ 
if( sx] <0) 
return x; 
else 
return find( s[ x ] ); 


1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 





图 8-9 一 个 简单 不 相交 集合 的 find 算法 


界 更 现实 些 。 
对 一 系列 操作 的 二 次 (quadratic) 运 行 时 间 一 般 是 不 可 接受 的 。 幸 运 的 是 ， 有 几 种 方法 容易 保 
证 这 样 的 运行 时 间 不 会 出 现 。 


8.4 灵巧 求 并 算法 


上 面 的 union 的 执行 是 相当 任意 的 ， 它 通过 使 第 二 棵 树 成 为 第 一 棵 树 的 子 树 而 完成 合并 。 对 
其 进行 简单 改进 是 借助 任意 的 方法 打破 现 有 的 随意 性 , 使 得 总 让 较 小 的 树 成 为 较 大 的 树 的 子 树 ; 
我 们 把 这 种 方法 叫做 按 大 小 求 并 (union by size)。 前 面 例 子 中 三 次 union 的 对 象 大 小 都 是 一 样 的 ， 
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因此 我 们 可 以 认为 它们 都 是 按照 大 小 执行 的 。 假 如 下 一 次 运算 是 union (3, 4), 那么 结果 将 形成 图 
8-10 中 的 森林 。 倘 若 没有 对 大 小 进行 探测 而 直接 union, 那么 结果 将 会 形成 更 深 的 树 ( 见 图 8-11)。 


000 A 


图 8-10 按 大 小 求 并 的 结果 


OO © 
3 
onc 
O 


图 8-11 进行 一 次 任意 的 union 的 结果 


我 们 可 以 证 明 ， 如果 这 些 union 都 是 按照 大 小 进行 的 , 那么 任何 节点 的 深度 均 不 会 超过 
log N-A, 首先 注意 节点 初始 处 于 深度 0 的 位 置 。 当 它 的 深度 随 着 一 次 union 的 结果 而 增加 的 
时 候 , 该 节点 则 被 置 于 至 少 是 它 以 前 所 在 树 两 倍 大 的 一 棵 树 上 。 因 此 , 它 的 深度 最 多 可 以 增加 
log N 次 。( 我 们 在 8.2 节 末 尾 的 快速 查找 算法 中 用 过 这 个 论断 。) 这 意味 着 ,find 操作 的 运行 时 间 
是 O(log N), 而 连续 M 次 操作 则 花费 D(M log N)。 图 8-12 中 的 树 指 出 在 16 次 union 后 有 可 能 
得 到 这 种 最 坏 的 树 ， 而 且 如 果 所 有 的 union 都 对 相等 六 小 的 树 进行 ， 那么 这 样 的 树 是 会 得 到 的 
(最 坏 情 形 的 树 是 在 第 6 章 讨论 过 的 二 项 树 )。 
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图 8-12 N=16 时 最 坏 情 形 的 树 


为 了 实现 我 们 的 想法 , 需要 记 住 每 一 棵 树 的 大 小 。 由 于 我 们 实际 上 只 使 用 一 个 数组 , 因此 可 
以 让 每 个 根 的 数组 元 素 包含 它 的 树 的 大 小 的 负 值 。 这 样 一 来 , 初始 时 树 的 数组 表示 就 都 是 一 1 
To Bunion 被 执行 时 , 要 检查 树 的 大 小 ; 新 的 大 小 是 老 的 大 小 的 和 。 这 样 , 按 大 小 求 并 的 实现 
根本 不 存在 困难 , 并 且 不 需要 额外 的 空间 ,其 速度 平均 也 很 快 。 对 于 真正 所 有 合理 的 模型 ,业已 
证 明 , 若 使 用 按 大 小 求 并 则 连续 M 次 运算 需要 O(M) 平 均 时 间 。 这 是 因为 当 随 机 的 诸 union 执 
行 时 整个 算法 一 般 只 有 一 些 很 小 的 集合 (通常 含 一 个 元 素 ) 与 大 集合 合并 。 
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另外 一 种 实现 方法 为 按 高 度 求 并 (union-by-height)， 它 同样 保证 所 有 的 树 的 深度 最 多 是 
O(log N)。 我 们 跟踪 每 棵 树 的 高 度 而 不 是 大 小 并 执行 那些 union 使 得 浅 的 树 成 为 深 的 树 的 子 树 。 
这 是 一 种 平缓 的 算法 , 因为 只 有 当 两 棵 相等 深度 的 树 求 并 时 树 的 高 度 才 增加 (此 时 树 的 高 度 增 
1)。 这 样 , 按 高 度 求 并 是 按 大 小 求 并 的 简单 修改 。 由 于 零 的 高 度 不 是 负 的 ,因此 我 们 实际 上 存储 
高 度 的 负 值 再 减 去 1。 初 始 时 所 有 的 项 都 是 - 1。 

下 列 各 图 显示 森林 以 及 它 对 于 按 大 小 求 并 和 按 高 度 求 并 的 非 显 式 表 示 。 图 8-13 中 的 程序 实 


现 的 是 按 高 度 求 并 的 代码 。 
OOO A 


O Ow 
G 
PACEA 
0 
人 
l 2 6 
[** 


* Union two disjoint sets using the height heuristic. 
* For simplicity, we assume rootl and root2 are distinct 
* and represent set names. 
* @param root] the root of set 1. 
* (param root2 the root of set 2. 
*/ 
public void union( int rootl, int root2 ) 
( 
if( s[ root2 ] < s[ root1 ] ) // root2 is deeper 
s[ rootl ] = root2; // Make root2 new root 
else 


{ 


] 
2 
3 
4 
5 
6 
7 
8 


if( s[ rootl ] == s[ root2 ] ) 
s[ rootl ]--; // Update height if same 
s[ root2 ] = rootl; // Make root] new root 


) 





图 8-13 按 高 度 ( 秩 ) 求 并 的 程序 


8.5 路 径 压 缩 


迄今 所 描述 的 union/find 算法 对 于 大 多 数 的 情形 都 是 完全 可 以 接受 的 , 它 非常 简单 , 而 且 对 
于 连续 M 个 指令 (在 所 有 的 模型 下 ) 平 均 是 线性 的 。 不 过 ，O(M log N) 的 最 坏 情况 还 是 可 能 相 
当 容易 和 自然 发 生 的 。 例 如 ,如 果 我 们 把 所 有 的 集合 放 到 一 个 队列 中 并 重复 地 让 前 两 个 集合 出 
队 而 让 它们 的 并 入 队 , 那么 最 坏 的 情况 就 会 发 生 。 如 果 运 算 find 比 union 多 很 多 , 那么 其 运行 时 
间 就 比 快速 查找 算法 (quick-find algorithm) 的 用 时 要 长 。 而 且 应 该 清楚 , 对 于 union SEMI UR 
更 多 改进 的 可 能 。 这 是 基于 这 样 的 观察 : 执行 合并 操作 的 任何 算法 都 将 产生 相同 的 最 坏 情 形 的 
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树 , 因为 它 必然 会 随意 打破 树 间 的 平衡 。 因 此 , 无 需 对 整个 数据 结构 重新 加 工 而 使 算法 加 速 的 唯 
一 方法 是 对 find 操作 做 些 更 明智 的 工作 。 

这 种 明智 的 操作 叫做 路 径 压 缩 (path compression)。 路 径 压 缩 在 find 操作 期 间 进 行 而 与 用 来 
执行 union 的 方法 无 关 。 设 操作 为 find(x), 此 时 路 径 压 缩 的 效果 是 : 从 x 到 根 的 路 径 上 的 每 一 
个 节点 都 使 其 父 节点 成 为 该 树 的 根 。 图 8-14 指出 在 对 图 8-12 的 普通 的 最 坏 的 树 执 行 find(14) 后 
路 径 压 缩 的 效果 。 





8-14 路径 压缩 的 一 个 例子 


路 径 压 缩 的 实施 在 于 使 用 额外 的 两 个 链 的 变化 , 节点 12 和 13 现在 离 根 近 了 一 个 位 置 , 而 节 
点 14 和 15 现在 离 根 近 了 两 个 位 置 。 因 此 , 对 这 些 节点 未 来 的 快速 存 取 将 (我 们 希望 ) 由 于 花费 额 
外 的 工作 来 进行 路 径 压 缩 而 得 到 补偿 。 

正如 图 8-15 中 的 程序 所 指出 的 , 路 径 压 缩 对 基本 的 find 操作 只 进行 了 不 大 的 改变 。 对 find 
例 程 来 说 , 唯一 的 变化 是 使 得 s[x] 等 于 由 find 返回 的 值 ; KH, 在 集合 的 根 被 递归 地 找到 以 后 ， 
x 的 父 链 就 引用 它 。 这 对 通 向 根 的 路 径 上 的 每 一 个 节点 递归 地 出 现 , 因此 实现 了 路 径 压 缩 。 


/** 

* Perform a find with path compression. 

* Error checks omitted again for simplicity. 
* @param x the element being searched for. 

* @return the set containing x. 


* 


public int find( int x ) 
{ 


Xo O00 7 OV GA AWN 


if( s[x]<0) 
return x; 
else 
return s[ x ] = find( s( x ] ); 





8-15 用 路 径 压 缩 对 不 相交 集 进 行 find 的 程序 


当 任 意 执行 一 些 union 操作 时 , 路 径 压缩 是 一 个 好 的 想法 ,因为 存在 许多 的 深层 节点 并 通过 
路 径 压 缩 将 它们 移 近 根 节点 。 业 已 证 明 , 当 在 这 种 情况 下 进行 路 径 压 缩 时 , 连续 M 次 运算 最 多 
需要 OUM log N) 的 时 间 。 不 过 , 在 这 种 情形 下 确定 平均 情况 的 性 能 如 何 仍然 是 一 个 尚未 解决 的 
问题 。 

路 径 压缩 与 按 大 小 求 并 完全 兼容 , 这 就 使 得 两 个 例 程 可 以 同时 实现 。 由 于 单独 进行 按 大 小 
求 并 要 以 线性 时 间 执 行 连续 M 次 运算 , 因此 还 不 清楚 在 路 径 压 缩 中 涉及 的 额外 一 趟 工作 平均 地 
看 是 否 值得 。 这 个 问题 实际 上 仍然 没有 解决 。 不 过 后 面 我们 将 会 看 到 , 路 径 压 缩 与 灵巧 求 并 法 
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则 的 结合 保证 在 所 有 情况 下 都 将 产生 非常 有 效 的 算法 。 

路 径 压 缩 不 完全 与 按 高 度 求 并 兼容 ， 因为 路 径 压缩 可 以 改变 树 的 高 度 。 我 们 根本 不 清楚 如 
何 有 效 地 去 重新 计算 它们 。 答 案 是 不 计算 ! 此 时 , 对 于 每 棵 树 所 存储 的 高 度 是 估计 的 高 度 ( 有 时 
称 为 秩 (rank)), 但 实际 上 按 秩 求 并 ( 它 正 是 现在 已 经 变 成 的 样子 ) 理 论 上 和 按 大 小 求 并 效率 是 一 
样 的 。 不 仅 如 此 , 高 度 的 更 新 也 不 如 大 小 的 更 新 频繁 。 与 按 大 小 求 并 一 样 , 我 们 也 不 清楚 路 径 压 
缩 平均 是 否 值 得 。 下 一 节 将 证 明 , 使 用 两 种 求 并 试探 法 ,路径 压 缩 都 能 够 显著 地 减少 最 坏 情 况 运 
行 时 间 。 


8.6 ”路 径 压缩 和 按 秩 求 并 的 最 坏 情 形 


当 使 用 两 种 试探 性 方法 时 , 算法 在 最 坏 情形 下 几乎 是 线性 的 。 特 别 地 , 在 最 坏 情形 下 需要 的 
时 间 是 G( Ma(M, NDURE MEN), 其 中 , a( M, N)Æ Ackermann MKO HGF, Ackermann PR 
数 如 下 定义 : 
A(1, j)=2’, j 宇 1 
A(i, 1)=A(i-1, 2), i72 
Ati, j}=Ali-l1, AGI D, 45322 
由 此 我 们 定义 
a(M, N) * minlizZ1| A(:, LM/NJ)>log NI 
你 可 以 想 去 计算 某 些 值 , 不 过 实际 中 a(M, N)S4, 这 对 我 们 才 是 真正 重要 的 。 单 变量 反 
Ackermann PK SUE fj i log N , CE N 的 直到 N 达 1 的 取 对 数 的 次 数 。 于 是 , log* 65536 =4, 这 
是 因为 log log log log 65536 = 1。log 265% = 5, 不 过 要 知道 , 255% 可 是 一 个 20 000 位 数字 的 大 数 。 
a( MN) 实际 上 甚至 比 log" N 增长 得 还 慢 。 然 而 , aM, ) 却 不 是 常数 , 因此 运行 时 间 并 不 是 
线性 的 。 
在 本 节 的 其 余部 分 我 们 将 证 明 一 个 稍微 弱 一 些 的 结果 。 我 们 将 证 明 , 任意 顺序 的 M = Q(N) 
次 union/find 操作 花费 总 的 运行 时 间 为 OCM log* N)。 如 果 用 按 大 小 求 并 代替 按 秩 求 并 , 则 这 个 
界 同样 是 成 立 的 。 对 它 的 分 析 大 概 是 本 书 最 为 复杂 的 分 析 工 作 , 也 是 曾 对 事实 上 实现 起 来 非常 
简单 的 一 个 算法 进行 的 第 一 批 真正 复杂 的 最 坏 情 形 的 分 析 之 一 。 
union/find 算法 的 分 析 
在 这 一 小 节 , 我 们 对 连续 M = Q(N ) 次 union/find 操作 的 运行 时 间 建 立 一 个 相当 严格 的 界 ， 
union 和 find 可 以 以 任何 顺序 出 现 , 但 是 union 是 按 秩 进行 而 find 则 利用 路 径 压缩 完成 。 
我 们 通过 建立 某 些 涉及 秩 > 的 节点 个 数 的 引 理 开始 。 直 观 地 看 , 由 于 按 秩 求 并 的 法 则 ,小 秩 
的 节点 要 比 大 秩 的 节点 多 得 多 。 特 别 是 , 最 多 可 能 存在 一 个 秩 为 log N 的 节点 。 我 们 想 要 做 的 是 
得 出 对 任意 给 定 的 秩 > 的 节点 个 数 的 一 个 尽 可 能 精确 的 界 。 由 于 秩 仅 当 union 执行 (从 而 仅 当 两 
棵 树 具有 相同 的 秩 ) 时 变化 , 因此 我 们 可 以 通过 忽略 路 径 压缩 来 证 明 这 个 界 。 
引 理 8.1 当 执行 一 系列 union 指令 时 , 一 个 秩 为 ~ 的 节点 必然 至 少 有 2 个 后 裔 节点 (包括 
它 自 己 )。 
证 阴 : 
数学 归纳 法 。 对 于 基准 情形 r =0 引 理 显然 成 立 。 令 T 是 秩 为 > 的 具有 最 少 后裔 数 的 树 ， 并 
令 X 是 工 的 根 。 设 涉及 X 的 最 后 一 次 union 是 在 T, 和 T, 之 间 进 行 的 。 设 T, 的 根 为 X。 如 果 
T, 的 秩 是 r, 那么 T, 就 是 一 棵 高 度 为 x 的 树 且 比 TT 有 更 少 的 后 疹 , 这 与 工 是 具有 最 少 后 裔 数 


O Ackermann ARARA ACT, j)=j+1, j> 来 定义 。 谍 文中 的 形式 增长 得 更 快 ; 因此 , 它 的 逆 增 长 得 就 更 慢 。 
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的 树 的 假设 矛盾 。 因 此 T, WR<r-1, T, MRT, HK. HFT AKr 而 秩 只 能 因 T, 增加 ， 
因此 T, 的 秩 =r 一 1。 于 是 T 的 秩 =r 一 1。 根 据 归纳 假设 , 每 棵 树 至 少 有 27 Je RE, 从 而 总 
数 为 27 个 后 裔 , 引 理 得 证 。 gE 

引 理 8.1 告诉 我 们 , 如 果 不 进行 路 径 压 缩 , 那么 秩 为 ~ 的 任意 节点 必然 至 少 有 2 个 后 将 。 
当然 , 路 径 压 缩 可 以 改变 这 种 状况 , 因为 它 能 够 把 后 裔 从 节点 上 除去 。 不 过 , 当 进 行 union, 甚至 
用 到 路 径 压 缩 时 , 我 们 都 是 在 使 用 秩 , 这 些 秩 是 高 度 的 估计 值 。 这 些 秩 的 行为 就 像 是 没有 路 径 压 
缩 。 因 此 , 当 确 定 秩 为 > 的 节点 个 数 的 界 时 ,路 径 压 缩 可 以 忽略 。 

于 是 , 下 面 的 定理 对 于 有 路 径 压 缩 还 是 没有 路 径 压 缩 都 是 成 立 的 。 

3188.2 BA r 的 节点 的 个 数 最 多 是 N/2"。 

VERA : 

车 无 路 径 压 缩 , 每 个 秩 为 > 的 节点 都 是 至 少 27 个 节点 的 子 树 的 根 。 在 该 子 树 中 没有 其 秩 能 
Ber 的 节点 。 因 此 , 秩 为 ~ 的 那些 节点 的 所 有 的 子 树 是 不 相交 的 。 于 是 , 存在 至 多 N/2' 个 不 
相交 的 子 树 ， 从 而 最 多 N/2' 个 秩 为 r 的 节点 。 E 

下 一 个 引 理 看 似 多 少 有 些 显然 , 不 过 它 在 我 们 的 分 析 中 却 是 至 关 重 要 的 。 

引 理 8.3 在 union/find 算 法 的 任 一 时 刻 , 从 树叶 到 根 的 路 径 上 的 节点 的 秩 单调 增加 。 

WERA: 

如 果 不 存在 路 径 压 缩 , 那么 该 引 理 显然 成 立 ( 见 例 子 )。 如 果 在 路 径 压 缩 后 某 个 节点 v Æw 
的 一 个 后 裔 , 那么 当 只 考虑 诸 union 操作 时 显然 v 必然 还 是 ww 的 一 个 后 裔 。 因 此 。z HRDF w 
的 秩 。 Bil 

让 我 们 来 总 结 这 些 初等 的 结果 。 引 理 8.2 告诉 我 们 多 少 节点 可 以 赋予 秩 r+。 因为 秩 只 有 通过 
union 被 赋值 , 它 并 不 管 路 经 压缩 如 何 , 所 以 引 理 8.2 在 union/find 算法 的 任何 阶段 甚至 在 路 径 压 
缩 的 中 间 都 是 成 立 的 。 图 8-16 指出 , 存在 许多 秩 为 0 和 1 的 节点 , 随 着 > 的 增 大 秩 为 r 的 节点 变 
少 。 


eS 
5 
A ® Li 
D ENS n n 
. LX Ka 2 ees Q 
0 9 1 © iy 2 0 IN 2 3 
e () LX O OO OO C 
0 0 of ò 0 IN 6 T\ 2 
e e ore € 
0 0 0 0 1 
® 
0 


图 8-16 一 棵 大 的 不 相交 和 集 树 (节点 下 面 的 数 是 秩 ) 


在 对 任意 秩 ~ 都 有 可 能 存在 N/2" 个 节点 的 意义 下 引 理 8.2 是 严格 的 。 但 该 引 理 还 是 稍微 有 
些 宽松 , 因为 不 可 能 对 所 有 的 秩 ~ 这 个 界 同时 成 立 。 引 理 8.2 描述 了 秩 为 ~ 的 节点 的 个 数 , 而 引 
38 8.3 则 告诉 我 们 它们 的 分 布 。 正 如 所 期 望 的 , 节点 的 秩 沿 着 从 叶 到 根 的 路 径 严 格 递增 。 

现在 我 们 准备 证 明 主 要 的 定理 。 证 明 的 基本 想法 如 下 : 对 任何 节点 v 的 find 所 花费 的 时 间 
与 从 vo 到 根 的 路 径 上 的 节点 的 个 数 成 正比 。 现 在 让 我 们 对 每 个 find 在 从 v 到 根 的 路 径 上 的 每 一 
个 节点 收取 一 个 单位 的 费用 。 为 了 帮助 我 们 计算 这 些 费 用 , 我 们 想象 在 路 径 的 每 一 个 节点 上 存 
人 一 美 分 。 严 格 地 说 这 是 一 个 会 计 诀 窃 , 它 并 不 是 程序 的 一 部 分 。 当 算法 结束 时 ,我们 将 已 经 存 
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人 的 所 有 分 币 剑 起 来 , 这 就 是 总 的 花费 。 

作为 进一步 的 会 计 诀 窍 , 我 们 存 人 美 分 和 加 拿 大 分 两 种 分 币 。 我 们 将 证 明 , 在 算法 执行 期 
la], 对 于 每 次 find 只 能 存 人 一 定量 的 美 分 。 我 们 还 将 证 明 , 我 们 只 能 存 人 一 定量 的 加 拿 大 分 到 
每 一 个 节点 上 。 把 这 两 笔 总 数 加 起 来 就 得 到 能 够 存 人 的 分 币 的 总 数 的 界 。 

现在 稍微 详细 地 概述 我 们 的 计算 方案 。 我 们 将 按照 秩 来 划分 节点 。 把 秩 分 成 一 些 秩 组 。 对 
每 个 find, 我 们 将 把 一 些 美 分 币 存 成 公共 的 储 金 ， 而 把 加 拿 大 分 币 存 到 一 些 特定 的 顶点 上 。2 为 
了 计算 所 存储 的 加 拿 大 分 币 的 总 数 , 我 们 将 计算 每 个 节点 上 的 储量 。 通 过 将 秩 为 ~ 的 每 一 个 节 
点 的 储 金 加 起 来 , 我 们 得 到 每 个 秩 ~ 的 总 的 储量 。 然 后 , 我 们 再 把 秩 组 g 中 每 个 秩 的 所 有 储量 
加 起 来 从 而 得 到 每 个 秩 组 g 的 总 的 储量 。 最 后 , 我 们 把 每 个 秩 组 g 的 所 有 储 金 加 到 一 起 就 得 到 
在 森林 中 存储 的 加 拿 大 分 币 的 总 数 。 把 这 笔 储 金 加 到 共同 储 金 的 美 分 币 的 数目 上 则 得 到 最 后 的 
答案 。 

我 们 将 把 秩 划分 成 组 。 秩 r 被 分 到 组 G(r), 而 G 将 在 后 面 确 定 。 任 何 秩 组 g 中 最 大 的 秩 为 
F(g), 其 中 =G 是 G 的 北 。 于 是 , 在 任何 秩 组 g 20 中 秩 的 个 数 是 F(g) 一 F(g 一 1)。 显 然 ， 
G(N) 是 最 大 秩 组 的 一 个 非常 宽松 的 上 界 。 作 为 一 个 例子 , 假设 按照 图 8-17 将 秩 分 组 。 在 这 种 
WAF, G(r)=[Vr1。 在 组 g 中 的 最 大 的 秩 是 F(g) = g^, 并 观察 到 组 g >0 包含 秩 F(g 一 1)+ 
1 直到 F(g)。 这 个 公式 不 适用 秩 组 0, 因此 为 了 方便 , 我 们 将 保证 秩 组 0 只 包含 秩 为 0 的 元 素 。 
注意 , 这 些 秩 组 是 由 一 些 连续 的 秩 构成 的 。 


组 秩 
0 0 
1 1 
2 2,3,4 
3 5 到 9 
4 10 到 16 
i G-1?«13 2 
图 8-17 将 秩 分 成 秩 组 的 可 能 的 划分 
我 们 以 前 提 到 过 ， 只 要 每 个 根 记录 着 它 的 子 树 的 大 小 , 则 每 个 union 指令 仅 花费 常数 时 间 。 
因此 ， 就 本 证 明 而 言 ，union 实际 上 是 免费 的 。 
每 个 find(i) 花 费 的 时 间 正 比 于 从 代表 i 的 顶点 到 根 的 路 径 上 的 顶点 的 个 数 。 因 此 , 我 们 对 
于 路 径 上 的 每 一 个 顶点 存 人 一 个 分 币 。 不 过 , 如 果 这 就 是 我 们 所 做 的 全 部 , 那么 我 们 不 能 对 界 有 
更 多 的 要 求 , 因为 没有 利用 到 路 径 压 缩 。 因 此 , 我 们 需要 在 分 析 中 利用 路 径 压 缩 。 我 们 将 使 用 想 
象 算账 (fancy accounting) 的 方法 。 
对 从 代表 i 的 顶点 到 根 的 路 径 上 的 每 一 个 顶点 v, 我 们 在 两 个 账户 之 一 存 人 一 个 分 币 : 
1. WR v ER, 或 者 v 的 父亲 是 根 , 或 者 v 的 父亲 在 与 v 不 同 的 秩 组 中 , 那么 在 该 法 则 之 
下 收取 一 个 单位 的 费用 , 这 就 需要 将 一 个 美 分 币 存 人 公共 储 金 中 。 
2. FW, 将 一 个 加 拿 大 分 币 存 人 该 顶点 中 。 


引 理 8.4 对 于 任意 的 find(v), 不 论 存 人 公共 储 金 还 是 存 人 顶点 , 所存 分 币 的 总 数 恰好 等 
于 从 v 到 根 的 路 径 上 的 节点 的 个 数 。 


O 我们 互 换 地 使 用 术语 节点 (node) 和 顶点 (vertex)。 
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WERA: 

显然 。 E: 

如 此 一 来 , 我 们 需要 做 的 就 是 把 在 法 则 1 下 存 人 的 所 有 的 美 分 币 和 在 法 则 2 下 存 人 的 所 有 加 
拿 大 分 币 加 起 来 。 

我 们 进行 最 多 M 次 find。 需 要 求 出 在 一 次 find 中 能 够 存 人 公共 储 金 中 的 分 币 个 数 的 界 。 

引 理 8.5 经 过 整个 算法 , 在 法 则 1 下 美 分 币 总 的 存 人 量 总 计 最 多 为 MCGON) * 2). 

证 明 : 

证 明 不 难 。 对 于 任意 的 find, 由 于 有 根 及 其 子 节点 , 因此 存 入 两 个 美 分 币 。 由 引 理 8.3, 沿 
路 径 向 上 分 布 的 节点 按 秩 单调 增 ， 而 由 于 最 多 有 GON) PRA, 因此 对 任意 特定 的 find, ERE 
上 只 有 G(N) 个 其 他 节点 能 够 按照 法 则 1 存 人 分 币 。 于 是 , 在 任意 一 次 find 期 间 最 多 有 G(N) 
+2 个 美 分 币 可 以 放 人 公共 储 金 中 。 因 此 , 在 法 则 1 F, 连续 M 次 find 最 多 可 以 存 人 M(G(N) 
+2) 个 美 分 币 。 w 

为 了 得 到 在 法 则 2 下 所 有 加 拿 大 分 币 存 人 量 的 理想 的 估计 值 , 我 们 将 把 按照 顶点 而 不 是 按 
E find 指令 所 存 人 的 分 币 量 相 加 。 如 果 一 枚 硬币 在 法 则 2 下 存 人 顶点 v, 那么 v 将 通过 路 径 压 
缩 被 移动 并 得 到 具有 比 它 原来 的 父 节点 更 高 的 秩 的 新 的 父亲 (这 里 我 们 用 到 路 径 压 缩 正 在 进行 的 
事实 )。 于 是 , 秩 组 g>0 中 的 节点 v 在 它 的 父 节 点 被 推敲 秩 组 g 之 前 最 多 可 以 移动 F(g)- Fle 
-1) 次 , 因为 这 是 该 秩 组 的 大 小 .9 在 这 以 后 , 对 v 的 所 有 未 来 的 收费 均 按照 法 则 1 进行 。 

引 理 8.6 KA g>0 中 顶点 的 个 数 V(g) 至 多 为 NAI), 

WERA: 

由 引 理 8.2, 至 多 存在 N/2' 个 秩 为 > 的 顶点 。 对 组 g 中 的 秩 求 和 , 我 们 得 到 
VG) > E: 

EET. 

— 2" 
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5139 8.7. HARA g 的 所 有 顶点 的 加 拿 大 分 币 的 最 大 个 数 至 多 是 NF(g)/2Fe- 0。 
WIR ALONE RH RD ALERTA F(g)- F(g - D&F(g) 
DNE 而 引 理 8.6 告诉 我 们 这 样 的 顶点 存在 的 个 数 。 alas 
引 理 8.8 ”在 法 则 2 下 总 的 存 人 量 最 多 为 NYO Fg) 2 0 个 加 拿 大 分 币 。 
—* 0 只 含有 秩 为 0 的 元 素 , 所 以 它 不 能 按照 法 则 2 接收 分 币 (这 样 的 元 素 在 该 秩 组 中 


O 该 数 可 以 减 1。 不 过 , 我 们 并 不 刻意 简化 ; 此 处 的 界 不 是 经 过 仔细 改进 的 界 。 
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不 可 能 有 父 节 点 )。 通 过 将 其 他 秩 组 求 和 则 可 得 到 引 理 指出 的 界 。 E 
这 样 , 我 们 就 得 到 在 法 则 1 和 法 则 2 下 存 人 的 分 币 数 , 该 总 数 为 


M(G(N)+2)+N x F(g)/2F«-? (8.1) 


我 们 还 没有 指定 G(N) 或 它 的 道 FON) 显然 ， 我 们 实际 上 可 以 自由 选择 我 们 想 要 的 任何 消 

数 , 但 选择 G(N) 极 小 化 上 面 的 界 是 有 意义 的 。 不 过 , 若是 G(N) 太 小 , 则 F(N) 就 会 很 大 , 这 

就 影响 到 界 。 一 个 明显 的 理想 选择 是 选取 FF(i) 为 由 下 (0)=0 和 FF(i)=2 7 递归 定义 的 函数 。 

于 是 得 到 G(N)=1+ log" NT, PH 8-18 显示 秩 是 如 何 由 此 而 划分 的 。 注 意 , 组 0 只 包含 秩 0, 这 

是 我 们 在 前 面 引 理 中 要 求 的 。 下 非常 类 似 于 单 值 Ackermann 函数 , 它们 只 在 基准 情形 的 定义 上 
有 所 不 同 (F(0)=1)。 


65537~ 2555s 
非常 大 


图 8-18 在 让 明 中 用 到 的 将 秩 分 成 秩 组 的 实际 划分 
定理 8.1 M 次 union 和 find 的 运行 时 间 为 OCM log" N)。 
WRA: 
把 下 和 G 的 定义 插 人 到 方程 (8.1) 中 , 美 分 币 的 总 数 为 O(MG(N))= O(M log" N), 加 拿 
大 分 币 的 总 数 为 N DOO? F(g) QF) = N ey 17 NG(N) - O(N log" N), 由 于 M= 
ACN), 因此 得 出 引 理 的 界 。 m 


我 们 的 分 析 指 出 , 存在 很 少 的 节点 能 够 通过 路 径 压 缩 经 常 地 移动 ， 从 而 总 的 时 间 花 费 相对 要 
少 。 


8.7 一 个 应 用 


应 用 union/find 数据 结构 的 一 个 例子 是 迷宫 的 生成 , 如 图 8-19 所 示 就 是 这 样 一 个 迷宫 。 在 图 
8-19 F, 开始 点 位 于 图 的 左上 角 , 而 终止 点 是 在 图 的 右 下 负 。 我 们 可 以 把 这 个 迷宫 看 成 是 由 单元 
组 成 的 50 x 88 的 矩形 , 在 该 矩形 中 , 左上 角 的 单元 被 连通 到 右 下 角 的 单元 , 而 且 这 些 单元 与 相 
邻 的 单元 通过 墙壁 分 离开 来 。 

生成 迷宫 的 一 个 简单 算法 是 从 各 处 的 墙壁 开始 ( 除 入 口 和 出 口 之 外 )。 此 时 , 我 们 不 断 地 随 
机 选择 一 面 墙 ， 如 果 被 该 墙 分 割 的 单元 彼此 不 连通 , 那么 我 们 就 把 这 面 墙 拆 掉 。 如 果 我 们 重复 这 
个 过 程 直到 开始 单元 和 终止 单元 连通 , 那么 我 们 就 得 到 一 个 迷宫 。 实 际 上 不 断 地 拆 掉 墙 壁 直到 
每 一 个 单元 都 可 以 从 每 个 其 他 单元 达到 就 更 好 (这 就 会 使 迷 官 产生 更 多 误导 的 路 径 )。 

我 们 用 5x5 迷 官 叙述 算法 。 图 8-20 显示 初始 的 状态 。 我 们 用 union/find 数据 结构 代表 彼此 
互 连 的 单元 的 集合 。 开 始 的 时 候 , SORA, 而 每 个 单元 都 在 它 自己 的 等 价 类 中 。 


组 
0 
1 
2 
3 
4 
- 
6 
7 
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图 8-19 一 个 S0x 88 迷宫 





101 113 (21 031 141 (51 (63 £73 181 (91 110] 1117 1121 (131 £14) (51 (161 071 (181 (191 (201 21] 
221 {23} 24 


820 初始 状态 : 所 有 的 墙 都 存在 , 所 有 的 单元 都 在 它 自 己 的 集合 中 


图 8-21 显示 算法 随后 的 一 个 阶段 , 这 是 在 一 些 墙 被 拆 掉 之 后 的 状态 。 设 在 该 阶段 连接 单元 
8 和 13 的 墙 被 随机 地 选 作 目 标 。 因 为 单元 8 和 13 已 经 连通 (它们 在 相同 的 集合 中 ), 所 以 我 们 也 
就 不 拆 掉 这 面 墙 , 拆 掉 它 就 使 得 迷宫 简单 化 了 。 设 单元 18 和 13 是 随机 选 出 的 下 一 个 目标 。 通 过 
执行 两 次 find 操作 我 们 看 到 它们 是 在 不 同 的 集合 中 ; 因此 单元 18 和 13 还 没有 连通 。 于 是 我 们 
把 隔 开 它 们 的 墙 拆 掉 , 如 图 8-22 所 示 。 注 意 , 这 次 操作 的 结果 是 包含 18 和 13 的 两 个 集合 通过 
union 操 作 被 连 在 一 起 。 这 就 是 为 什么 连通 到 单元 18 的 每 个 单元 现在 已 与 连通 13 的 每 个 单元 连 
通 的 原因 。 该 算法 结束 时 每 个 单元 之 间 都 是 连通 的 , 如 图 8-23 所 示 , 构建 迷宫 的 工作 完成 。 





(0,1; 123 135 (4,6.7,89,13,14 15) {10,11,15} 1121 116,17,18.22! 1191 1201 1211 123! (24! 


图 8-21 在 算法 的 某 个 时 刻 : 几 面 墙 被 拆 掉 , 集合 合并 。 如 果 在 这 个 
时 候 在 单元 8 和 13 之 间 的 墙 被 随机 地 选 定 , 那么 这 面 墙 将 不 
拆 掉 ,因为 单元 8 和 13 已 经 是 连通 的 
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10,11 121 131 14,6,2,8,9,13,14,16,17,18.22] 151 110,11,45; (121 119] 1201 (211 1231 024] 


8-22 在 图 8-21 中 单元 18 和 13 之 间 的 墙 被 随机 地 选 定 。 这 面 墙 被 拆 
掉 , 因为 单元 18 和 13 还 没有 连通 。 它 们 所 在 的 集合 被 合并 





10.1,2,3,4,5,6,7,8,9,10,11,12.13,14.15.10.17.18.19,20.21,22,23,24) 


图 8-23 fda, 24 mee, 所 有 的 多 天 都 在 同一 个 集合 中 


这 个 算法 的 运行 时 间 由 union/find 的 开销 控制 。union/find 总 体 的 大 小 等 于 单元 的 个 数 。 
find 操作 的 次 数 与 单元 的 个 数 成 正比 , 因为 拆 掉 的 墙 的 数目 比 单元 的 个 数 少 1, 而 仔细 观察 可 以 
ARA, 开始 的 时 候 墙 的 数目 只 有 大 约 单 元 个 数 的 二 倍 。 因 此 , 如 果 N 是 单元 的 个 数 , 由 于 每 面 随 
机 选择 的 墙 有 两 次 find, 那么 整个 算法 估计 find 操作 的 次 数 ( 大 致 ) 在 2N 和 4N 之 间 。 因 此 算 
法 的 运行 时 间 可 以 取 为 O(N log”N), 这 个 算法 将 会 很 快 地 生成 一 个 迷 官 。 


小 结 


我 们 已 经 看 到 保持 不 相交 集合 的 非常 简单 的 数据 结构 。 当 union 操作 执行 时 , 就 正确 性 而 
A, 哪个 集合 保留 它 的 名 字 是 无 关 紧 要 的 。 这 里 , 有 必要 注意 , 当 某 一 特定 的 步骤 尚未 完全 指定 
时 , 考虑 选择 方案 可 能 是 非常 重要 的 。 步 又 union 是 灵活 的 , 利用 这 一 点 , 我 们 能 够 得 到 一 个 比 
较 有 效 的 算法 。 

路 径 讨 缩 是 自 调整 (self-adjustment) 的 最 早 形式 之 一 , 我 们 已 经 在 别 的 一 些 地 方 (伸展 树 、 斜 
堆 ) 见 到 过 。 它 的 使 用 非常 有 趣 , 特别 是 从 理论 的 观点 来 看 , 因为 它 是 算法 简单 但 最 坏 情形 分 析 
却 并 不 那么 简单 的 第 一 批 例子 之 一 。 


练习 
8.1 指出 下 列 一 系列 指令 的 结果 : union (1, 2), union (3, 4), union (3, 5), union (1, 7), 


union (3, 6), union (8, 9), union (1, 8), union (3, 10), union (3, 11), union (3, 
12), union (3, 13), union (14, 15), union (16, 0), union (14, 16), union (1, 3), 
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union(|, 14), 其 中 ,union 是 
a. 任意 进行 的 。 
b. 按 高 度 进行 的 。 
c. 按 大 小 进行 的 。 
8.2 “对 于 上 题 中 的 每 一 棵 树 , 用 对 最 深 节 点 的 路 径 压 缩 执行 一 次 find, 
8.3 ”编写 一 个 程序 来 确定 路 径 压 缩 法 和 各 种 求 union 方法 的 效果 。 程 序 应 该 使 用 所 有 6 种 
可 能 的 方法 处 理 一 系列 等 价 操作 。 
8.4 ”证 明 , 如 果 union 按照 高 度 进行 , 那么 任意 树 的 深度 均 为 O(log N)。 
8.5 a. 证 明 如 果 M = N?, 那么 M 次 union/find 操作 的 运行 时 间 是 O(M)。 
b. 证 明 , 如 果 M=N log N, 那么 M 次 union/find 操作 的 运行 时 间 是 O( M)。 
"c. KH M=B(N log log N), W M 次 union/find 操作 的 运行 时 间 是 多 少 ? 
"d. iE M=O(N log* N), W M 次 union/find 操作 的 运行 时 间 是 多 少 ? 
8.6 HER, 对 于 由 8.7 节 中 的 算法 生成 的 迷宫 ， 从 起 点 到 终点 的 路 径 是 唯一 的 。 
8.7 “设计 一 个 生成 迷宫 的 算法 ,这 个 迷宫 不 含有 从 起 点 到 终点 的 路 径 , 但 却 有 一 个 性 质 ， 即 
拆除 预先 指定 的 一 面 墙 后 则 建立 一 条 唯一 的 路 径 。 
*8.8 ”假设 我 们 想 要 添加 一 个 附加 的 操作 deunion, 它 废除 尚未 被 废除 的 最 后 的 union 操作 。 
a. 证 明 , 如 果 我 们 按 高 度 求 并 以 及 不 用 路 径 压 缩 进行 find, 那么 deunion 操作 容易 进行 
并 且 连 续 M 次 union、find 和 deunion 操作 花费 OCM log N) 时 间 。 
b. 为 什么 路 径 压 缩 使 得 deunion 很 难 进行 ? 
** c. 指出 如 何 实 现 所 有 三 种 操作 使 得 连续 M 次 操作 花费 O(M log Nog log N) 时 间 。 
*8.9 ”假设 我 们 想 要 添加 一 种 额外 的 操作 remove(x), 该 操作 把 x 从 当前 的 集合 中 除去 并 把 它 
放 到 它 自己 的 集合 中 。 指 出 如 何 修 改 union/find 算法 使 得 连续 M 次 union, find 和 re 
move 操作 的 运行 时 间 为 OCM a( M, N))。 
“8.10 给 出 一 个 算法 以 一 棵 NN 顶点 树 和 NN 对 顶点 作为 输入 , 对 每 对 顶点 (v,w) 确 定 v 和 ww 
的 最 近 的 公共 祖先 。 算 法 应 该 以 O(N log" N) 时 间 运 行 。 
“8.11 WEH, 如 果 所 有 的 union 都 在 find 之 前 , 那么 使 用 路 径 压 缩 的 不 相交 集 算 法 需要 线性 
时 间 , 即使 union 任意 进行 也 是 如 此 。 
“8.12 HEAR, 如 果 诸 union 操作 任意 进行 , 但 路 径 压缩 是 对 那些 find 进行 , 那么 最 坏 情 形 运 行 
时 间 为 6M log N)。 
8.13 证明, 如 果 union 按 大 小 进行 且 执 行路 径 压 缩 , 那么 最 坏 情 形 运行 时 间 为 OCM log" 
N)。 
设 我 们 实现 对 find(i) 的 偏 路 径 压 缩 (partial path compression) 是 通过 使 在 从 i 到 根 的 路 
径 上 的 每 一 个 其 他 节点 链接 到 其 祖父 ( 当 有 意义 时 ) 完 成 的 。 这 叫做 路 径 平 分 (path halv- 
ing) o 
a. 编写 一 个 过 程 完成 上 述 工作 。 
b. 证 明 , 如 果 对 诸 find 操作 进行 路 径 平分 , 则 不 论 使 用 按 高 度 求 并 还 是 按 大 小 求 并 ， 
其 最 坏 情 形 运行 时 间 皆 为 OCM log" N)。 
编写 一 个 能 够 生成 任意 大 小 的 迷宫 的 程序 。 使 用 Swing 包 来 生成 一 个 类 似 于 图 8-19 那 
样 的 迷宫 。 
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第 9 章 图 论 算 法 


在 这 一 章 , 我 们 讨论 图 论 中 几 个 一 般 的 问题 。 这 些 算法 不 仅 在 实践 中 有 用 , 而且 还 是 非常 有 
趣 的 ,因为 在 许多 实际 生活 的 应 用 中 若 不 仔细 注意 数据 结构 的 选择 将 导致 它们 的 速度 过 慢 。 本 
章 我 们 将 
介绍 几 个 现实 生活 中 发 生 的 问题 , 它们 可 以 转化 成 图 论 问题 。 

给 出 一 些 算法 以 解决 几 个 常见 的 图 论 问题 。 

指出 适当 选择 数据 结构 可 以 极 大 地 降低 这 些 算法 的 运行 时 间 。 

介绍 一 个 被 称 为 深度 优先 搜索 (depth-first search) 的 重要 技巧 , 并 指出 它 如 何 能 够 以 线性 
时 间 求 解 若干 表面 上 非 平凡 的 问题 。 


9.1 若干 定义 


一 个 图 (graph)G = (V,E) FATS (vertex) WR V 和 边 (edge) 的 集 五 组 成 。 每 一 条 边 就 是 一 
幅 点 对 (v，w), 其 中 wu,zE V。 有 时 也 把 边 称 做 弧 (arc)。 如 果 点 对 是 有 序 的 , 那么 图 就 是 有 向 
(directed) 的 。 有 向 的 图 有 时 也 叫做 有 向 图 (digraph)。 顶 点 xw 和 w SBR (adjacent) ?4 HL (X 24 (v, 
w)€ E. X£—^ BAU», w) 从 而 具有 边 (w,v) 的 无 向 图 中 ,tw Mo PHA, 也 和 ww 邻接。 有 
时 候 边 还 具有 第 三 种 成 分 , 称 做 权 (weight) 或 值 (cost) 。 

图 中 的 一 条 路 径 (path) 是 一 个 顶点 序列 w, wo, w, wy E Cw; wi.) € E, TTE N. 
这 样 一 条 路 径 的 长 (length) 是 为 该 路 径 上 的 边 数 , 它 等 于 N - 1。 从 一 个 顶点 到 它 自身 可 以 看 成 
是 一 条 路 径 ; 如 果 路 径 不 包含 边 , 那么 路 径 的 长 为 0。 这 是 定义 特殊 情形 的 一 种 便捷 方法 。 如 果 
图 含有 一 条 从 一 个 顶点 到 它 自身 的 边 (v,v), 那么 路 径 v,v 有 时 也 叫做 环 (loop)。 我 们 要 讨论 的 
图 一 般 将 是 无 环 的 。 一 条 简单 路 径 是 这 样 一 条 路 径 , 其 上 的 所 有 顶点 都 是 互 异 的 , 但 第 一 个 顶点 
和 最 后 一 个 顶点 可 能 相同 。 

有 向 图 中 的 圈 (cycle) 是 满足 w= wy 且 长 至 少 为 1 的 一 条 路 径 ; 如 果 该 路 径 是 简单 路 径 , AB 
么 这 个 圈 就 是 简单 圈 。 对 于 无 向 图 , 我 们 要 求 边 是 互 异 的 。 这 些 要 求 的 根据 在 于 无 向 图 中 的 路 
1$ u,v u 不 应 该 被 认为 是 圈 , 因为 (w,w) 和 (ww,x) 是 同一 条 边 。 但 是 在 有 向 图 中 它们 是 两 条 不 
同 的 边 , 因此 称 它们 为 圈 是 有 意义 的 。 如 果 一 个 有 向 图 没有 圈 ,， 则 称 其 为 无 圈 的 (acyclic)。 一 个 
有 向 无 圈 图 有 时 也 简称 为 DAG, 

如 果 在 一 个 无 向 图 中 从 每 一 个 顶点 到 每 个 其 他 顶点 都 存在 一 条 路 径 , 则 称 该 无 向 图 是 连通 
的 (connected)。 具 有 这 样 性 质 的 有 向 图 称 为 是 强 连通 的 (strongly connected)。 如 果 一 个 有 向 图 不 
是 强 连 通 的 , 但 是 它 的 基础 图 (underlying graph), BECK. E 2:377 I6) POT RMA, 是 连通 的 , AB 
么 该 有 向 图 称 为 是 弱 连 通 的 (weakly connected)。 完 全 图 (complete graph) 是 其 每 一 对 顶点 间 都 存 
在 一 条 边 的 图 。 

现实 生活 中 能 够 用 图 进行 模拟 的 一 个 例子 是 航空 系统 。 每 个 机 场 是 一 个 顶点 , 在 由 两 个 顶点 
表示 的 机 场 间 如 果 存 在 一 条 直达 航线 , 那么 这 两 个 顶点 就 用 一 条 边 连接 。 边 可 以 有 一 个 权 , 表示 
时 间 、 距离 或 飞行 的 费用 。 有 理由 假设 , 这 样 的 图 是 有 问 图 ， 因为 在 不 同 的 方向 上 飞行 可 能 所 用 时 
间或 所 花 的 费用 会 不 同 ( 例 如 , 依赖 于 地 方 税 )。 可 能 我 们 更 愿意 航空 系统 是 强 连通 的 , 这 样 就 总 能 
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够 从 任 一 机 场 飞 到 另外 的 任意 一 个 机 场 。 我 们 也 可 能 愿意 迅速 确定 任意 两 个 机 场 之 间 的 最 佳 航线 。 
“最 佳 "可 以 是 指 最 少 边 数 的 路 径 , 也 可 以 是 对 一 种 或 所 有 的 权重 量度 所 算出 的 最 佳 者 。 

交通 流 可 以 用 一 个 图 来 模型 化 。 每 一 条 街道 交叉 口 表示 一 个 项 点 , 而 每 一 条 街道 就 是 一 条 
边 。 边 的 值 可 能 代表 速度 限度 , 或 是 容量 (车 道 的 数目 ) 等 等 。 此 时 我 们 可 能 需要 找 出 一 条 最 短 
路 , 或 用 该 信息 找 出 交通 瓶颈 最 可 能 的 位 置 。 

在 本 章 的 其 余部 分 , 我 们 将 考查 图 论 的 几 个 更 多 的 应 用 , 这 些 图 中 有 许多 可 能 是 相当 巨大 
的 , 因此 , 我 们 使 用 的 算法 的 效率 是 非常 重要 的 。 
图 的 表示 

我 们 将 考虑 有 向 图 (无 向 图 可 类 似 表示 ) 。 

现在 假设 可 以 从 1 开始 对 顶点 编号 。 图 9-1 中 所 示 的 图 表示 7 个 顶点 和 12 条 边 。 

表示 图 的 一 种 简单 的 方法 是 使 用 一 个 二 维 数组 ， 称 为 
邻接 矩阵 (adjacent matrix) 表 示 法 。 对 于 每 条 边 (u,v), E 
Alullu]#F¥ true; 否则 , 数组 的 元 素 就 是 false。 如 果 边 
有 一 个 权 , 那么 可 以 置 Al ull FRR, 而 使 用 一 个 很 
大 或 者 很 小 的 权 作 为 标记 表示 不 存在 的 边 。 例 如 ， 如 果 我 
们 寻找 最 廉价 的 航空 路 线 , 那么 我 们 可 以 用 值 ce 来 表示 不 
存在 的 航线 。 如 果 出 于 某 种 原因 我 们 寻找 最 昂贵 的 航空 路 图 91 一 个 有 向 图 
线 , 那么 可 以 用 - oo( 或 者 也 许 使 用 0) 来 表示 不 存在 的 边 。 

虽然 这 样 表示 的 优点 是 非常 简单 , 但 是 , 它 的 空间 需求 则 为 OVI), 如 果 图 的 边 不 是 很 
Z, 那么 这 种 表示 的 代价 就 太 大 了 。 若 图 是 稠密 (dense) 的 :| 下 | = 8(|1V12), 则 邻接 矩阵 是 合适 
的 表示 方法 。 不 过 , 在 我 们 将 要 看 到 的 大 部 分 应 用 中 , 情况 并 非 如 此 。 例 如 , 设 用 图 表示 一 个 街 
道 地 图 , 街道 旦 曼哈顿 式 的 方向 ,其 中 几乎 所 有 的 街道 或 者 南北 向 , 或 者 东西 向 。 因 此 , 任 一 路 口 
大 致 都 有 四 条 街道 ,于 是 ,如果 留 是 有 向 图 且 所 有 的 街道 
都 是 双向 的 , WIE|~4| Vlo WRA 3 000 THO, 那么 我 | 
们 就 得 到 一 个 3 000 顶点 的 图 , 该 图 有 12000 条 边 , 它们 需 2 
要 一 个 大 小 为 9000 000 的 数组 。 该 数组 的 大 部 分 元 素 将 是 
0。 这 直观 看 来 很 糟 ， 因 为 我 们 想 要 我 们 的 数据 结构 表示 那 
些 实际 存在 的 数据 , 而 不 是 去 表示 不 存在 的 数据 。 1 

如 果 图 不 是 稠密 的 , 换 句 话说 ,如果 图 是 稀疏 的 5 
(sparse), ， 则 更 好 的 解决 方法 是 使 用 邻接 表 (adjacency list) 表 
示 。 对 每 一 个 顶点 , 我 们 使 用 一 个 表 存 放 所 有 邻接 的 顶点 。 
此 时 的 空间 需求 为 O(|E| + IVI), 它 相对 于 图 的 大 小 而 言 。 7|6 | 
是 线性 的 S$。 这 种 抽象 表示 方法 应 该 可 以 从 图 9-2 清楚 地 看 n 
出 。 如 果 边 有 权 , 那么 这 个 附加 的 信息 也 可 以 存储 在 邻接 ”图 92 图 的 邻接 表 表示 法 
表 中 。 l 

邻接 表 是 表示 图 的 标准 方法 。 无 向 图 可 以 类 伏地 表示 ; 每 条 边 (x,u) 出 现在 两 个 表 中 , 因此 
空间 的 使 用 基本 上 是 双 倍 的 。 在 图 论 算 法 中 通常 需要 找 出 与 某 个 给 定 顶 点 v 邻接 的 所 有 的 顶点 。 
而 这 可 以 通过 简单 地 扫描 相应 的 邻接 表 来 完成 , 所 用 时 间 与 这 些 找到 的 顶点 的 个 数 成 正比 。 

有 几 种 方法 保留 邻接 表 。 首 先 注意 到 , 这 些 邻 接 表 本 身 可 以 被 保存 在 任何 种 类 的 List， 即 









O 当 我 们 谈 到 线性 时 间 图 论 算法 时 ,要 求 运行 时 间 为 O(|E| + IVI) 
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ArrayList 或 LinkedList 中 。 然 而 , ITIER RAAE, 4 GRAY ArrayList 时 程序 员 可 能 需要 从 
一 个 比 默认 容量 更 小 的 容量 开始 ArrayList; 否则 可 能 造成 明显 的 空间 浪费 。 

因为 关键 在 于 能 够 迅速 得 到 与 任 一 顶点 邻接 的 那些 顶点 的 表 , 所 以 两 个 基本 的 选择 是 , 或 者 
使 用 一 个 映射 , 在 这 个 映射 下 , 关键 字 就 是 那些 顶点 而 它们 的 值 就 是 那些 邻接 表 , 或 者 把 每 一 个 
邻接 表 作 为 Vete 类 的 数据 成 员 保存 起 来 。 这 第 1 个 选择 论证 要 简单 ,而 第 2 个 选择 可 能 会 更 
快 , 因为 它 避 免 了 在 映射 下 的 重复 查找 。 

在 第 2 种 情形 , 如 果 顶 点 是 一 个 String( 例 如 , 一 个 机 场 名 或 街道 路 口 名 ), 那么 可 以 使 用 映 
射 , 在 映射 下 , 关键 字 是 顶点 名 而 关键 字 的 值 则 是 一 个 Vertex, 并 且 每 一 个 Vertex 对 象 拥有 一 个 
邻接 顶点 表 , 或 许 还 有 原始 的 String BA. 

在 本 章 的 大 部 分 情况 下 我 们 均 使 用 伪 代 码 表示 图 论 算法 。 这 么 做 将 节省 空间 ， 当 然 也 使 得 
算法 的 表达 更 清晰 。 在 9.3 节 末 尾 , 我 们 提供 一 个 例 程 实用 的 Java 实现 , 它 基 本 利用 最 短路 算法 
以 得 到 问题 的 答案 。 


9.2 INEF 


拓扑 排序 是 对 有 向 无 圈 图 的 顶点 的 一 种 排序 , 使 得 如 果 存 在 一 条 从 v; $ v, 的 路 径 , 那么 在 
排序 中 vy 就 出 现在 wv; 的 后 面 。 在 图 9-3 中 的 图 表示 迈阿密 州立 大 学 的 课程 先 修 结构 (course 
prerequisite structure) 。 有 向 边 (v, 凤 ) 表 明 课程 v 必须 在 课程 w 选修 前 修 完 。 这 些 课程 的 拓扑 排 
序 是 不 破坏 课程 结构 要 求 的 任意 的 课程 序列 。 





图 9-3 表示 课程 先 修 结构 的 无 圈 图 


TA, 如果 图 含有 图, 那么 拓扑 排序 是 不 可 能 的 , 因为 对 于 圈 上 的 两 个 顶点 v 和 w, v EF w 
同时 w 又 先 于 zw。 此 外 , 拓扑 排序 不 必 是 唯一 的 ; 任何 合 
理 的 排序 都 是 可 以 的 。 在 图 9-4 的 图 中 , v, U2, Us, Ugs U35 
v7, Ug 和 v, , U2, 75, 74, U7, Us, v6 两 个 都 是 拓扑 排序 。 

一 个 简单 的 求 拓扑 排序 的 算法 是 先 找 出 任意 一 个 没有 
人 边 的 顶点 。 然 后 显示 出 该 顶点 , 并 将 它 及 其 边 一 起 从 图 
PHP. RA, 我 们 对 图 的 其 余部 分 同样 应 用 这 样 的 方法 


处 理 。 图 9-4 一 个 无 图 图 
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为 了 将 上 述 方法 形式 化 , 我 们 把 项 点 v B0 ABE Gindegree) E LAW (u , v) HARK. THA 
所 有 项 点 的 人 度 。 假 设 每 一 个 顶点 的 人 度 被 存储 且 图 被 读 人 一 个 邻接 表 中 , 则 此 时 可 以 应 用 
图 9-5 中 的 算法 生成 一 个 拓扑 排序 。 


void topsort( ) throws CycleFoundException 
{ 


for( int counter = 0; counter < NUM VERTICES; counter++ ) 
{ 
Vertex v = findNewVertexOfIndegreeZero( ); 
if( v == null ) 
throw new CycleFoundException( ); 
v.topNum = counter; 
for each Vertex w adjacent to v 
w.indegree--; 





图 9-5 简单 拓扑 排序 的 伪 代 码 


方法 findNewVertexOfIndegreeZero 扫描 数组 ， 寻 找 一 个 尚未 被 分 配 拓扑 编号 的 人 度 为 0 的 
顶点 。 如 果 这 样 的 顶点 不 存在 , 它 则 返回 null; 这 就 说 明 , 该 图 有 轿 。 

因为 findNewVertexOfIndegreeZero 方法 是 对 顶点 数组 的 一 个 简单 的 顺序 扫描 , 所 以 每 次 对 
它 的 调用 都 花费 O(| V1) 时 间 。 由 于 有 |V| 次 这 样 的 调用 , 因此 该 算法 的 运行 时 间 为 O(] V1?)。 

通过 更 仔细 地 关注 这 样 的 数据 结构 , 我 们 可 以 做 得 更 好 。 产 生 如 此 差 的 运行 时 间 的 原因 在 
于 对 顶点 数组 的 顺序 扫描 。 如 果 图 是 稀 玖 的 , 那么 我 们 就 可 以 预知 , ERE RAL RH 
点 的 入 度 被 更 新 。 然 而 , 虽然 只 有 一 小 部 分 发 生变 化 , 但 在 搜索 入 度 为 0 的 顶点 时 我 们 (潜在 地 ) 
查看 了 所 有 的 顶点 。 

我 们 可 以 通过 将 所 有 (未 分 配 拓扑 编号 ) 的 入 度 为 0 的 顶点 放 在 一 个 特殊 的 盒子 中 而 消除 这 种 
无 效 的 劳动 。 此 时 £indNewVertexOfIndegreeZero 方法 返回 (并 删除 ) 的 是 该 盒子 中 的 任 一 顶点 。 当 
我 们 降低 它 的 邻接 顶点 的 人 度 时 , 检查 每 一 个 顶点 并 在 它 的 人 度 降 为 0 时 把 它 放 人 盒子 中 。 

为 实现 这 个 盒子 , 我 们 可 以 使 用 一 个 栈 或 一 个 队列 。 首 先 , 对 每 个 顶点 计算 它 的 人 度 。 然 
ja, 将 所 有 人 度 为 0 的 顶点 放 人 一 个 初始 为 空 的 队列 中 。 当 队列 不 空 时 , 删除 一 个 顶点 v, 并 将 
与 v 邻接 的 所 有 顶点 的 入 度 均 减 1。 只 要 一 个 顶点 的 入 度 降 为 0, 就 把 该 顶点 放 人 队列 中 。 此 
时 , 拓扑 排序 就 是 顶点 出 队 的 顺序 。 图 9-6 显示 每 一 阶段 之 后 的 状态 。 


出 队 前 的 人 度 
顶点 1 2 3 4 5 6 7 
U| 0 0 0 0 0 0 0 
U2 ] 0 0 0 0 0 0 
Us 2 l 1 1 0 0 0 
Ua 3 2 1 0 0 0 0 
Us l 1 0 0 0 0 0 
U6 3 3 3 3 2 1 0 
v7 2 2 2 1 0 0 0 
AK vi v2 Us Vg — Us, 07 ve 
出 队 vy v2 Us U4 V3 v3. US 


图 9-6 对 图 9-4 中 的 图 应 用 拓扑 排序 的 结果 
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这 个 算法 的 伪 代 码 实现 在 图 9-7 中 给 出 。 和 前 面 一 样 , 我 们 将 假设 图 已 经 被 读 到 一 个 邻接 
表 中 且 入 度 被 计算 并 和 顶点 一 起 被 存储 。 我 们 还 假设 每 个 顶点 有 一 个 域 , 叫做 topNum, 其 中 存放 
的 是 拓扑 编号 。 


void topsort{ ) throws CycleFoundException 


{ 
Queue<Vertex> q = new Queue<Vertex>({ ); 
int counter = 0; 


for each Vertex v 
if( v.indegree == 0 ) 
q.enqueue( v ); 


while( !q.istmpty( ) ) 
{ 
Vertex v = q.dequeue( ); 
v.topNum = **counter; // Assign next number 


for each Vertex w adjacent to v 
if( --w.indegree == 0 ) 
q.enqueue( w ); 


) 


if( counter != NUM VERTICES ) 
throw new CycleFoundException( ); 





9.2 实施 拓扑 排序 的 伪 代 码 


如 果 使 用 邻接 表 , 那么 执行 这 个 算法 所 用 的 时 间 为 O(|E|+1V|1)。 当 认识 到 for 循环 体 对 
每 条 边 顶 多 执行 一 次 时 , 这 个 结果 是 明显 的 。 队 列 操作 对 每 个 顶点 最 多 进行 一 次 , 而 初始 化 各 步 
花费 的 时 间 也 和 图 的 大 小 成 正比 。 


9.3 最 短路 径 算法 


这 一 节 我 们 考查 各 种 最 短路 径 问题 。 输 入 是 一 个 赋 权 图 : 与 每 条 边 (wv, wv) 相 联 系 的 是 穿越 
该 弧 的 代价 (或 称 为 值 )c;.;。 一 条 路 径 vor oy 的 值 是 > ，, cii*1 ,叫做 赋 权 路 径 长 (weighted 
path length)。 而 无 权 路 径 长 (unweighted path length) 只 是 路 径 上 的 边 数 , 即 N 一 1。 
单 源 最 短路 径 问题 

给 定 一 个 赋 权 图 G=(V,E) 和 一 个 特定 顶点 s 作为 输入 , 找 出 从 s BIG 中 每 一 个 其 他 顶点 
的 最 短 赋 权 路 径 。 

例如 , 在 图 9-8 的 图 中 , 从 w 到 w 的 最 短 赋 权 路 径 的 值 为 6, 它 是 从 w 到 va 到 v; 再 到 o 的 路 
径 。 在 这 两 个 顶点 间 的 最 短 无 权 路 径 长 为 2。 一 般 说 来 ， 当 不 指明 我 们 讨论 的 是 赋 权 路 径 还 是 无 权 路 
径 时 , 如 果 图 是 赋 权 的 , 那么 路 径 就 是 赋 权 的 。 还 要 注意 , 在 图 9-8 的 图 中 , 从 ve 到 o, 没有 路 径 。 

前 面 例子 中 的 图 没有 负 值 的 边 。 图 9-9 中 的 图 指出 负 边 可 能 产生 的 问题 。 从 vs 到 vs 的 路 径 
的 值 为 1, 但 是 , 通过 下 面 的 循环 vs, 04, wz, vs, va 存在 一 条 更 短 的 路 径 , 它 的 值 是 - 5。 这 条 路 
径 仍然 不 是 最 短 的 ， 因 为 我 们 可 以 在 循环 中 滞留 任意 长 的 时 间 。 因 此 , 在 这 两 个 顶点 间 的 最 短路 
径 问题 是 不 确定 的 。 类 似 地 ,从 vi 到 uk 的 最 短路 径 也 是 不 确定 的 , 因为 我 们 可 以 进入 同样 的 循 
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环 。 这 个 循环 叫做 负 值 圈 (negative-cost cycle); 当 它 出 现在 图 中 时 , 最 短路 径 问 题 就 是 不 确定 的 。 
有 负 值 的 边 未 必 就 是 坏事 , 但 是 它们 的 出 现 似乎 使 问题 增加 了 难度 。 为 方便 起 见 , 在 没有 负 值 圈 
时 , Ms Bs 的 最 短路 径 为 0。 





图 9-8 有 向 图 C 图 9-9 rfi fei ka RS PRI 


有 许多 的 例子 使 我 们 可 能 要 去 求解 最 短路 径 问 题 。 如 果 顶 点 代表 计算 机 ; 边 代 表 计 算 机 间 
的 链接 ; 值 表示 通信 的 费用 (每 1 000 字 节 数据 的 电话 费 ), 延迟 成 本 (传输 1000 字 节 所 需要 的 秒 
数 ), 或 它们 与 其 他 一 些 因 素 的 组 合 , 那么 我 们 可 能 利用 最 短路 问题 来 找 出 从 一 台 计 算 机 向 一 组 
其 他 计算 机 发 送 电子 新 闻 的 最 廉价 的 方法 。 

我 们 可 能 使 用 图 建立 航线 或 其 他 大 规模 运输 路 线 的 模型 并 利用 最 短路 径 算法 计算 两 点 间 的 
最 佳 路 线 。 在 这 样 的 以 及 许多 实际 的 应 用 中 , 我 们 可 能 想 要 找 出 从 一 个 顶点 s 到 另 一 个 顶点 : 的 
最 短路 径 。 当 前 , 还 不 存在 找 出 从 s 到 一 个 顶点 的 路 径 比 找 出 从 s 到 所 有 顶点 路 径 更 快 ( 快 得 超 
出 一 个 常数 因子 ) 的 算法 。 

我 们 将 考查 求解 该 问题 4 种 形态 的 算法 。 首 先 , 考虑 无 权 最 短路 径 问 题 并 指出 如 何以 
OC(|E| * 1 VI) 时 间 求 解 它 。 其 次 , 还 要 介绍 , 如 果 假 设 没 有 负 边 , 那么 如 何 求解 赋 权 最 短路 径 
问题 。 这 个 算法 在 使 用 合理 的 数据 结构 实现 时 的 运行 时 间 为 OLE ogl V|)。 

如 果 图 有 负 边 , 我 们 将 提供 一 个 简单 的 解法 , 不 过 它 的 时 间 界 不 理想 , 为 O(|El'|V|1)。 最 
后 ,我们 将 以 线性 时 间 解 决 无 圈 图 特殊 情形 的 赋 权 问题 。 

9.3.1 无 权 最 短路 径 

图 9-10 表示 一 个 无 权 图 C。 使 用 某 个 顶点 s 作为 输入 参数 , 我 们 想 要 找 出 从 s 到 所 有 其 他 
顶点 的 最 短路 径 。 我 们 只 对 包含 在 路 径 中 的 边 数 有 兴趣 ， 因 此 在 边 上 不 存在 权 。 显 然 , 这 是 赋 权 
最 短路 径 问 题 的 特殊 情形 , 因为 我 们 可 以 为 所 有 的 边 都 赋 以 权 1。 

暂时 假设 我 们 只 对 最 短路 径 的 长 而 不 是 具体 的 路 径 本 身 有 兴趣 。 记 录 实 际 的 路 径 只 不 过 是 
简单 的 簿 记 问 题 。 

设 我 们 选择 s 为 va。 此 时 立刻 可 以 说 出 从 s Blo, 的 最 短路 径 是 长 为 0 的 路 径 。 把 这 个 信息 
作 个 标记 , 得 到 图 9-11 的 图 。 





图 9-10 ”一 个 无 权 有 向 图 G 图 9-11 将 开始 节点 标记 为 通过 0 条 边 
可 以 到 达 的 节点 后 的 图 
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现在 我 们 可 以 开始 寻找 所 有 从 s 出 发 距离 为 1 的 顶点 。 这 些 顶 点 可 以 通过 考查 与 ; 邻接 的 
那些 顶点 找到 。 此 时 我 们 看 到 ，zw, 和 we Ms 出 发 内 一 边 之 帝 。 我 们 把 它 表示 在 图 9-12 中 。 

现在 可 以 开始 找 出 那些 从 s 出 发 最 短路 径 恰 为 2 的 顶点 , 我 们 找 出 所 有 邻接 到 w 和 we 的 项 
点 (距离 为 1 处 的 顶点 ), 它们 的 最 短路 径 还 不 知道 。 这 次 搜索 告诉 我 们 , 到 v, 和 vw 的 最 短路 径 
长 为 2。 图 9-13 显示 到 现在 为 止 已 经 做 出 的 工作 。 





图 9-12 找 出 所 有 从 s 出 发 路 径 长 图 9-13 找 出 所 有 从 s 出 发 路 径 
为 1 的 项 点 之 后 的 图 长 为 2 的 顶点 之 后 的 图 


最 后 , 通过 考查 那些 邻接 到 刚 被 赋值 的 v> 和 v, 的 顶点 我 们 可 以 发 现 ， vs 和 vj 各 有 一 条 三 
边 的 最 短路 径 。 现 在 所 有 的 顶点 都 已 经 被 计算 , 图 9-14 显示 算法 的 最 后 结果 。 

这 种 搜索 图 的 方法 称 为 广度 优先 搜索 (breadth-first search)。 该 方法 按 层 处 理 顶 点 : 距 开始 点 
最 近 的 那些 顶点 首先 被 求 值 ,而 最 远 的 那些 顶点 最 后 被 求 值 。 这 很 像 对 树 的 层 序 遍历 (level-order 
traversal) 。 

有 了 这 种 方法 , 我 们 必须 把 它 翻 译 成 代码 。 图 9-15 显示 该 算法 将 要 用 到 的 记录 其 过 程 的 表 
的 初始 配置 。 


£ 

TT TT Tn 
8888^088|£&R 
ocococoosc|r* 





图 9-14 最 后 的 最 短路 径 图 9-15 用 于 无 权 最 短路 径 计算 的 表 的 初始 配置 


对 于 每 个 顶点 , 我 们 将 跟踪 三 条 信息 。 首 先 , 把 从 开始 到 顶点 的 距离 放 到 4d, 栏 中 。 开 始 
的 时 候 , BR s 外 所 有 的 顶点 都 是 不 可 达到 的 , 而 s 的 路 径 长 为 0。p, RE PHU Mice, 它 将 
使 我 们 能 够 显示 出 实际 的 路 径 。known 中 的 项 在 顶点 被 处 理 以 后 置 为 true。 最 初 , 所 有 的 顶点 都 
不 是 known( 已 知 ) 的 , 包括 开始 顶点 。 当 一 个 顶点 被 标记 为 known 时 , 我 们 就 有 了 不 会 再 找到 更 
便宜 的 路 径 的 保证 , 因此 对 该 顶点 的 处 理 实质 上 已 经 完成 。 

基本 的 算法 在 图 9-16 中 描述 。 图 9-16 中 的 算法 模拟 这 些 图 表 , 它 把 距离 d =0 上 的 顶点 声 
有 明 为 known, 然后 声明 d =1 上 的 顶点 为 known, 再 声明 d =2 上 的 顶点 为 known, 等 等 , 并 且 将 
仍然 是 d,, = % 的 所 有 邻接 的 顶点 w 置 为 距离 d,,=d +1。 

通过 追溯 p, 变量 , 可 以 显示 实际 的 路 径 。 当 讨论 赋 权 的 情形 时 我 们 将 会 看 到 如 何 进行 。 
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void unweighted( Vertex s ) 


for each Vertex v 


{ 
v.dist = INFINITY; 
v. known = false; 


} 
s.dist = 0; 


for( int currDist = 0; currDist < NUM VERTICES; currDist++ ) 
for each Vertex v 


if( !v.known && v.dist == currDist ) 
( 


v.known = true; 
for each Vertex w adjacent to v 
if( w.dist == INFINITY ) 
( 
w.dist = currDist + 1; 
w.path = v; 


) 





图 9-16 无 权 最 短路 径 算 法 的 伪 代 码 


由 于 双 层 嵌 套 for 循环 , 因此 该 算法 的 运行 时 间 为 O(| V1*)。 一 个 明显 的 低 效 之 处 在 于 ， 
尽管 所 有 的 顶点 早 就 成 为 known T, 但 是 外 层 循环 还 是 要 继续 , 直到 NUM VERTICES - 1 为 止 。 虽 
然 额外 的 附加 测试 可 以 避免 这 种 情形 发 生 , 但 是 它 并 不 能 影响 最 坏 情 形 运行 时 间 , 在 以 点 vo TF 
为 起 点 的 图 9-17 中 的 图 作为 输入 时 , 通过 将 所 发 生 的 情况 一 般 化 即 可 看 到 这 一 点 。 


图 9-17 使 用 图 9-16 的 无 权 最 短路 径 算 法 的 坏 情 形 


我 们 可 以 用 非常 类 似 于 对 拓扑 排序 所 做 的 那样 来 排除 这 种 低 效 性 。 在 任 一 时 刻 ， 只 存在 两 
种 类 型 的 d, AR unknown 顶点 ,一些 顶点 的 d, = currDist, 而 其 余 的 则 有 d, = currDist +1, 
由 于 这 种 附加 的 结构 ,因此 搜索 整个 的 表 以 找 出 合适 的 顶点 的 做 法 是 非常 浪费 的 。 

一 种 非常 简单 但 抽象 的 解决 方案 是 保留 两 个 盒子 。1 号 盒 将 装 有 d, = currDist 的 那些 未 知 
顶点 , 而 2 号 盒 则 装 有 d, = currDist +1 的 那些 顶点 。 找 出 一 个 合适 顶点 的 测试 可 以 用 查找 1 号 
盒 内 的 任意 顶点 代替 。 在 更 新 w( 内 层 if 语句 块 的 内 部 ) 以 后 , 我 们 可 以 把 w 加 到 2 SAF, E 
She for 循环 终止 以 后 , 1 BEZH, 而 2 号 盒 则 可 转换 成 1 号 盒 以 进行 下 一 趟 for 循环 。 

我 们 甚至 可 以 使 用 一 个 队列 把 这 种 想法 进一步 精 化 。 在 迭代 开始 的 时 候 , 队列 只 含有 上 距离 
为 currDist 的 那些 顶点 。 当 添加 距离 为 currDist * 1 的 那些 邻接 顶点 时 , 由 于 它们 自 队 尾 人 队 ， 
因此 这 就 保证 它们 直到 所 有 距离 为 currDist 的 顶点 都 被 处 理 之 后 才 被 处 理 。 在 距离 currDist 处 
的 最 后 一 个 顶点 出 队 并 被 处 理 之 后 , 队列 只 含有 距离 为 currDist+ 1 的 项 点 ,因此 该 过 程 将 不 断 
进行 下 去 。 我 们 只 需要 把 开始 的 节点 放 人 队列 中 以 启动 这 个 过 程 即 可 。 

精练 的 算法 如 图 9-18 中 所 示 。 在 伪 代 码 中 , 我 们 已 经 假设 开始 顶点 s 是 作为 参数 被 传递 的 . 
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再 有 , 如 果 某 些 顶 点 从 开始 节点 出 发 是 不 可 到 达 的 , 那么 有 可 能 队列 会 过 早 地 变 空 。 在 这 种 情况 
F, 将 对 这 些 节点 报 出 INFINITY (GA EAS, 这 是 完全 合理 的 。 最 后 ，known 域 没有 使 用 ; 一 个 
顶点 一 旦 被 处 理 它 就 从 不 再 进入 队列 , 因此 它 不 需要 重新 处 理 的 事实 就 意味 着 被 做 了 标记 。 这 
样 一 来 ,， known 域 可 以 去 掉 。 图 9-19 指出 我 们 一 直 在 使 用 的 图 上 的 值 在 算法 期 间 是 如 何 变化 的 。 


(该 图 还 包括 对 known 发 生 的 变化 )。 





void unweighted( Vertex s ) 
{ 


Queue<Vertex> q = new Queue<Vertex>( ); 


for each Vertex v 
v.dist = INFINITY; 


s.dist = 0; 
q.enqueue( s ); 


while( !q.isEmpty( ) ) 
{ 


Vertex v = q.dequeue( }; 


for each Vertex w adjacent to v 
if( w.dist == INFINITY ) 
{ 
w.dist = v.dist + 1; 
w.path = v; 
q.enqueue( w ); 





图 9-18 无 权 最 短路 径 算法 的 伪 代 码 





























初始 状况 v3 出 队 后 vi lI Ba vs 出 队 后 
v known d, Ps known d, P. knoum d, P. known dy Ps 
U| F oo 0 F 1 Vy T l U3 i l U3 
Uy F oo 0 F oo 0 F 2 vı F 2 vy 
Ui F 0 0 T Q 0 T 0 0 T 0 0 
Vs F co 0 F oo 0 F 2 UI F 2 UI 
Us F co 0 F oo 0 F oo 0 F oo 0 
Ué F oo 0 F l tai F ] U3 T 1 v3 
v7 F oo 0 F oo 0 F oo 0 F oo 0 
Q: U3 —— Uys UG Ugs V2, V4 Vas Uy 
v2 出 队 后 v4 出 队 后 vs 出 队 后 v7 出 队 后 

v known d, Py known dy b. known d, b. known d, D. 
vi — l v3 T 1 Us T 1 UA T 1 v3 
v2 T 2 Vv) T 2 vl T 2 UI T 2 UI 
v4 T 0 0 T 0 0 工 0 0 T 0 0 
U4 F 2 vi T 2 vı T 2 v] T 2 UI 
Us F 3 v2 F 3 v? T 3 v2 T 3 v2 
Ug T ] Ua T l V3 T ] U3 T 1 Uy 
U7 F oo 0 下 3 Ua F 3 Vy T 3 U4 
Q: Va: V5 US,Uj V7 28 


图 9-19 无 权 最 短路 径 算法 期 间 数 据 变化 情况 
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使 用 与 对 拓扑 排序 进行 同样 的 分 析 , 我 们 看 到 , 只 要 使 用 邻接 表 , 则 运行 时 间 就 是 OC E| + 
| VD. 

9.3.2 Dijkstra 算法 

如 果 图 是 赋 权 图 , 那么 问题 (明显 地 ) 就 变 得 困难 了 , 不 过 我 们 仍然 可 以 使 用 来 自 无 权 情 形 时 
的 想法 。 

我 们 保留 所 有 与 前 面相 同 的 信息 。 因 此 , 每 个 项 点 或 者 标记 为 known( 已 知 ) 的 , 或 者 标记 为 
unknown( 未 知 ) 的 。 像 以 前 一 样 , 对 每 一 个 顶点 保留 一 个 尝试 性 的 距离 d,。 这 个 距离 实际 上 是 只 
使 用 一 些 known 顶点 作为 中 间 顶 点 从 s 到 w 的 最 短路 径 的 长 。 和 以 前 一 样 , 我 们 记录 po 它 是 引 
起 d, 变化 的 最 后 的 顶点 。 

解决 单 源 最 短路 径 问 题 的 一 般 方法 叫做 Dijkstra 算法 (Dijkstra's algorithm)。 这 个 有 30 年 历 
史 的 解法 是 仿 禁 算法 (greedy algorithm) 最 好 的 例子 。 贪 禁 算 法 一 般 分 阶段 求解 一 个 问题 ,在 每 个 
阶段 它 都 把 出 现 的 当做 是 最 好 的 去 处 理 。 例 如 , 为 了 用 美国 货币 找 零钱 , 大 部 分 人 首先 数 出 若干 
25 分 一 个 的 硬币 阔 特 (quarter) ， 然 后 是 若干 一 角 币 .五 分 币 和 一 分 币 。 这 种 贪 禁 算 法 使 用 最 少数 
目的 硬币 找 零钱 。 贪 禁 算 法 主要 的 问题 在 于 , 该 算法 不 是 总 能 够 成 功 的 。 为 了 找 还 15 美 分 的 零 
ER, 如 添加 12 美 分 一 个 的 货币 则 可 破坏 这 种 找 零钱 算法 , 因为 此 时 它 给 出 的 答案 (一 个 12 分 币 
和 三 个 分 币 ) 不 是 最 优 的 (一 个 角 币 和 一 个 五 分 币 )。 

Dijkstra 算法 按 阶段 进行 , 正 像 无 权 最 短路 径 算法 一 样 。 在 每 个 阶段 ，Dijkstra 算法 选择 一 个 
顶点 v, 它 在 所 有 unknown 顶点 中 具有 最 小 的 d,, 同时 算法 声明 从 s 到 ww 的 最 短路 径 是 known 
的 。 阶 段 的 其 余部 分 由 do 值 的 更 新 工作 组 成 。 

在 无 权 的 情形 , 若 d, = Wd =d, + 1。 因 此 , 若 顶点 v 能 提供 一 条 更 短路 径 , 则 我 们 
本 质 上 降低 了 d. 的 值 。 如 果 我 们 对 赋 权 的 情形 应 用 同样 的 逻辑 , 那么 当 d,, 的 新 值 d, + cv 是 
一 个 改进 的 值 时 我 们 就 置 d,, = d, + cuo WAZ, 使 用 通 向 z 的 路 径 上 的 顶点 w 是 不 是 一 个 好 
主意 由 算法 决定 。 原 始 的 值 do 是 不 使 用 w% 的 值 的 ; 上 面 所 算出 的 值 是 使 用 v( 和 仅仅 那些 known 
的 顶点 ) 的 最 廉价 的 路 径 。 

图 9-20 中 的 图 是 一 个 例子 。 图 9-21 表示 初始 配置 , 假设 开始 节点 s 是 ww。 第 一 个 选择 的 顶 
点 是 w ,路 径 的 长 为 0。 该 顶点 标记 为 known, BR v, 是 know 的 , 那么 某 些 表 项 就 需要 调整 。 
邻接 到 v, 的 顶点 是 v 和 w。 这 两 个 顶点 的 项 得 到 调整 ， 如 图 9-22 所 示 。 


v known 


888888^25|£& 
[= = o|? 





a 
和 
可 本 可 可 可 中 加 


图 9-20 有 向 图 G 图 9-21 用 于 Dijkstra 算法 的 表 的 初始 配置 


下 一 步 , 选取 v, 并 标记 为 known, WA v3, vs, vq, v; 是 邻接 的 顶点 , 而 它们 实际 上 都 需要 
调整 ,如 图 9-23 所 示 。 | | 


接 下 来 选择 vo v. 是 邻接 的 点 , 但 已 经 是 know 的 了 , 因此 对 它 没 有 工作 要 做 。 zs 是 邻接 
的 点 但 不 做 调整 , 因为 经 过 wv, 的 值 为 2+ 10= 12 而 长 为 3 的 路 径 已 经 是 已 知 的 。 图 9-24 指出 在 
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这 些 顶点 被 选取 以 后 的 表 。 

v known d, P. v known d, Po 
VI T 0 0 vı T 0 0 
U2 F 2 vi vy F 2 Ui 
U3 F oo 0 V3 F 3 U4 
Va F 1 vy U4 T. l U| 
Us F oo 0 Us F 3 U4 
U6 F 9o 0 Us F 9 Us 
Uj F oo 0 v7 F 5 U4 

图 9-22 1E v, 被 声明 为 known 后 的 表 图 9-23 在 v, 被 声明 为 known 后 


下 一 个 被 选取 的 顶点 是 vs, 其 值 为 3。zw? 是 唯一 的 邻接 顶点 , 但 是 它 不 用 调整 , 因为 3+6> 
5。 然 后 选取 v3, 对 vo 的 距离 下 调 到 3+5=8。 结 果 如 图 9-25 Ha. 





v known d, Po v known d, p 
vy T 0 0 vi T 0 0 
T 2 vi v2 T 2 vI 
Us F 3 Va vs T 3 v⸗ 
UA T ] U| V4 T 1 UI 
Us F 3 Us Us T 3 Ua 
ve F 9 Ua Ue F 8 "s 
v7 F 5 Us u7 F 5 Vs 
图 9-24 在 v2 被 声明 为 known 后 图 9-25 在 Us 然后 U3 被 声明 为 known 后 


再 下 一 个 选取 的 顶点 是 vy ,ve 下调 到 5 + 1 = 6。 我 们 得 到 图 9-26 所 示 的 表 。 
最 后 , 我 们 选择 ws。 最 后 的 表 在 图 9-27 FRH., A 9-28 以 图 形 演 示 在 Dijkstra 算法 期 间 各 
边 是 如 何 标记 为 known 的 以 及 顶点 是 如 何 更 新 的 。 








| 
| 





v known d P. v known d, Pe 

Ui T 0 0 th T 0 0 

v2 T 2 vy vi T 2 Uy 

V3 T 3 U4 U3 工 3 v4 

U4 T 1 Ui U4 T 1 UI 

Us T 3 Va Us T 3 V4 

Us F 6 v7 vs T 6 v7 

v7 T 5 U4 v7 T 5 U4 
图 9-26 在 v; 被 声明 为 known 后 图 9-27 在 vs 被 声明 为 known 之 后 , 算法 终止 


为 了 显示 出 从 开始 项 点 到 某 个 顶点 v 的 实际 路 径 , 我 们 可 以 编写 一 个 递归 例 程 跟踪 p 变量 
留 下 的 踪迹 。 


现在 我 们 给 出 实现 Dijkstra 算法 的 伪 代 码 。 每 个 Vertex 存储 在 算法 中 使 用 的 各 种 数据 域 。 
这 在 图 9-29 中 表 出 。 

利用 图 9-30 中 的 递归 例 程 可 以 显示 出 这 个 路 径 。 该 例 程 递归 地 显示 路 径 上 直到 顶点 v 前面 
的 顶点 的 整个 路 径 , 然后 再 显示 顶点 vo 这 是 没有 问题 的 , 因为 路 径 是 简单 的 。 

图 9-31 列 出 主要 的 算法 ,， 它 就 是 一 个 使 用 贪 禁 选 取 法 则 填 表 的 for 循环 。 
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图 9-28 Dijkstra 算法 的 各 个 阶段 


class Vertex 


public List adj; // Adjacency list 
public boolean known; 


public DistType dist; // DistType is probably int 
public Vertex path; 
// Other fields and methods as needed 





图 9-29 Dijkstra 算法 中 的 Vertex 类 


利用 反 证 法 的 证 明 将 指出 ,只 要 没有 边 的 值 为 负 , 该 算法 总 能 够 顺利 工作 。 如 果 任 何 一 边 出 
现 负 值 , 则 算法 可 能 得 出 错误 的 答案 ( 见 练习 9.7(a))。 运 行 时 间 依 赖 于 对 顶点 的 处 理 方 法 , 我 们 
必须 考虑 。 如 果 使 用 顺序 扫描 顶点 以 找 出 最 小 值 d, 这 种 明显 的 算法 , 那么 每 一 步 将 花费 Ol VV!) 
时 间 找 到 最 小 值 , 从 而 整个 算法 过 程 中 查找 最 小 值 将 花费 O CI V1) 时间。 每 次 更 新 du 的 时 间 
是 常数 , 而 每 条 边 最 多 有 一 次 更 新 , 总 计 为 OC EDS Ast, XZA OUE + |V?) = 


O(1V1*)。 如 果 图 是 稠密 的 , 边 数 |E| = 6B(|V1*), 则 该 算法 不 仅 简单 而 且 基本 上 最 优 , 因为 它 
的 运行 时 间 与 边 数 成 线性 关系 。 
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/* 
* Print shortest path to v after dijkstra has run. 


* Assume that the path exists. 
* 


void printPath( Vertex v ) 


if( v.path != nul! ) 


{ 
printPath( v.path ); 
System.out.print( " to " ); 
} 
System.out.print( v }; 





图 9-30 显示 实际 最 短路 径 的 例 程 


void dijkstra( Vertex s ) 
{ 
for each Vertex v 
{ 
v.dist = INFINITY; 
v.known = false; 


} 
s.dist = 0; 


for( 33) 
{ 
Vertex v = smallest unknown distance vertex; 
if( v == NOT A VERTEX ) 
break; 
v.known = true; 


for each Vertex w adjacent to v 
if( !w.known ) 
if( v.dist * cvw « w.dist ) 


{ 


// Update w 
decrease( w.dist to v.dist + cvw ); 
w.path = v; 





图 9-31 Dijkstra 81 86 5183 
如 果 图 是 稀疏 的 , 边 数 1|E| = 68(|1V1), 那么 这 种 算法 就 太 惕 了。 在 这 种 情况 下 ,距离 需要 
存储 在 优先 队列 中 。 有 两 种 方法 可 以 做 到 这 一 点 , 二 者 是 类 似 的 。 


顶点 v 的 选择 是 一 次 deleteMin 操作 , 因为 一 旦 未 知 的 最 小 值 顶点 被 找到 , 那么 它 就 不 再 是 
未 知 的 , 必须 从 未 来 的 考虑 中 除去 。w 的 距离 的 更 新 可 以 有 两 种 方法 实现 。 


一 种 方法 是 把 更 新 处 理 成 decreaseKey 操作 。 此 时 , 查找 最 小 值 的 时 间 为 O(log] V|), 就 像 执行 
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那些 更 新 的 时 间 , 它 相 当 于 decreasekey 操作 。 由 此 得 出 运行 时 间 为 O(|Ellog| VI + | Vilog] VI) = 
O(C|Ellog| VI), 它 是 对 前 面 稀 朴 图 的 界 的 改进 。 由 于 优先 队列 不 是 有 效 地 支持 find 操作 , 因此 
d, 的 每 个 值 在 优先 队列 的 位 置 将 需要 保留 并 当 d; 在 优先 队列 中 改变 时 更 新 。 如 果 优 先 队列 是 用 
二 叉 堆 实现 的 , 那么 这 将 很 难 办 。 如 果 使 用 配对 堆 (pairing heap, 见 第 12 章 ), 则 程序 不 会 太 差 。 

另 一 种 方法 是 在 每 次 w 的 距离 变化 时 把 w MAE d., 插 人 到 优先 队列 中 去 。 这 样 ， 对 在 优 
先 队列 中 的 每 个 顶点 就 可 能 有 多 于 一 个 的 代表 。 当 deleteMin 操作 把 最 小 的 顶点 从 优先 队列 中 
删除 时 ， 必 须 检 查 以 肯定 它 不 是 known 的 。 如 果 它 是 , WERE, 并 执行 另 一 次 deleteMin, iX 
种 方法 虽然 从 软件 的 观点 看 是 优越 的 ,而 且 编 程 确实 容易 得 多 , 但 是 , 队列 的 大 小 可 能 达到 |EE| 
XAK., BUFIEIS | VI? 意味 着 log| E| 2log| V|, 因此 这 并 不 影响 渐进 时 间 界 。 这 样 , 我 们 仍 
然 得 到 一 个 O(|Ellog| VID RR. A, 空间 需求 的 确 增加 了 , 在 某 些 应 用 中 这 可 能 是 严重 的 。 
不 仅 如 此 , 因为 该 方法 需要 |E| 次 而 不 是 仅仅 | V1 次 deleteMin, 所 以 它 在 实践 中 很 可 能 要 减 慢 。 

注意 ,对 于 一 些 诸如 计算 机 邮件 和 大 型 公交 传输 的 典型 问题 , 它们 的 图 一 般 是 非常 稀 朴 的 , 因 
为 大 多 数 顶 点 只 有 少数 几 条 边 。 因 此 , 在 许多 应 用 中 使 用 优先 队列 来 解决 这 种 问题 是 很 重要 的 。 

如 果 使 用 不 同 的 数据 结构 , ABA Dijkstra 算法 可 能 会 有 更 好 的 时 间 界 。 在 第 11 章 , 我 们 将 看 
到 另外 的 优先 队列 数据 结构 , 叫做 斐 波 那 契 堆 (Fibonacci heap) 。 使 用 这 种 数据 结构 的 运行 时 间 是 
O(|El| * | Vllog| VI). 3EIESE SE RÁR BLÉTFBURETERT IBI TA, 不 过 , 它 需 要 相当 数量 的 系统 开销 。 
因此 , 尚 不 清楚 在 实践 中 是 否 使 用 斐 波 那 契 堆 比 使 用 带 有 二 叉 堆 的 Dijkstra 算法 更 好 。 至 今 , 这 
种 问题 尚 没 有 有 意义 的 平均 情形 的 结果 。 
9.3.3 具有 负 边 值 的 图 

如 果 图 具有 负 的 边 值 , ABA Dijkstra 算法 是 行 | void weightedNegative( Vertex s ) 
不 通 的 。 问 题 在 于 , 一 旦 一 个 顶点 u 被 声明 是 |l 
known 的 , 那 就 可 能 从 某 个 另外 的 unknown 顶点 v 
有 一 条 回 到 u 的 负 的 路 径 。 在 这 样 的 情形 下 , 选 for each Vertex v 
取 从 * 到 o 再 回 到 的 路 径 要 比 从 s 到 u 但 不 过 Waa S ERU LIM 
v 更 好 。 练 习 9.7(a) 要 求 构 造 一 个 明晰 的 例子 。 — 

一 个 诱 人 的 方案 是 将 一 个 常数 A 加 到 每 一 条 q.enqueue( s ); 
边 的 值 上 ， 如 此 除去 负 的 边 , 再 计算 新 图 的 最 短 l 

while( !q.isEmpty( ) ) 

路 径 问题 , 然后 把 结果 用 到 原来 的 图 上 。 这 种 方 | | 


Queue<Vertex> q = new Queue<Vertex>( ); 


案 的 直接 实现 是 行 不 通 的 , 因为 那些 具有 许多 条 边 Vertex v = q.dequeue( ); 
的 路 径 变 成 比 那些 具有 很 少 边 的 路 径 权重 更 重 了 。 
or each Vertex w adjacent to v 

把 赋 权 的 和 无 权 的 算法 结合 起 来 将 会 解决 Oi dit esee IRE) 
这 个 问题 , 但 是 要 付出 运行 时 间 剧 烈 增 长 的 代 { 
价 。 我 们 忘记 了 关于 unknown 的 顶点 的 概念 ， // Update w 
因为 我 们 的 算法 需要 能 够 改变 它 的 意向 。 开 Peer nee 
48, 我 们 把 s 放 到 队列 中 。 然 后 , 在 每 一 阶段 if( w is not already in q ) 
让 一 个 顶点 o 出 队 。 找 出 所 有 与 v 邻接 的 顶点 q.enqueue( w ); 


w, 使 得 d,» d, c, uo REE du Mpu, F 
在 w 不 在 队列 中 的 时 候 把 它 放 到 队列 中 。 可 以 
为 每 个 顶点 设置 一 个 比特 位 (bit) 以 指示 它 在 队 
列 中 出 现 的 情况 。 我 们 重复 这 个 过 程 直 到 队列 图 9-32 具有 人 负 边 值 的 赋 权 最 短路 
空 为 止 。 图 9-32( 几 乎 ) 实 现 了 这 个 算法 。 径 算法 的 伪 代 码 
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虽然 如 果 没 有 负 值 圈 该 算法 能 够 正常 运行 , 但 是 , 内 层 for 循环 中 的 代码 对 每 边 只 执行 一 次 
的 情况 不 再 成 立 。 每 个 顶点 最 多 可 以 出 队 1V| 次 , 因此 , 如果 使 用 邻接 表 则 运行 时 间 是 
OUELI VI) (RAY 9.7(b)). XE Dijkstra 算 法 多 很 多 , 幸运 的 是 , 实践 中 边 的 值 是 非 负 的 。 
如 果 负 值 圈 存 在 , 那么 算法 正如 所 写 的 将 无 限 地 循环 下 去 。 通 过 在 任 一 顶点 已 经 出 队 | VI +1% 
后 停止 算法 运行 , 我 们 可 以 保证 它 能 终止 。 
9.3.4 无 圈 图 

如 果 知 道 图 是 无 图 的 , 那么 我 们 可 以 通过 改变 声明 顶点 为 known 的 顺序 , 或 者 叫做 顶点 选取 
法 则 , 来 改进 Dijkstra 算法 。 新 法 则 是 以 拓扑 顺序 选择 顶点 。 由 于 选择 和 更 新 可 以 在 拓扑 排序 执 
行 的 时 候 进行 ,因此 算法 能 够 一 趟 完成 。 

因为 当 一 个 顶点 v 被 选取 以 后 , 按照 拓扑 排序 的 法 则 它 没有 从 unknown 顶点 发 出 的 进入 边 ， 
因此 它 的 距离 d, 可 不 再 被 降低 , 所 以 这 种 选择 法 则 是 行 得 通 的 。 

使 用 这 种 选择 法 则 不 需要 优先 队列 ; 由 于 选择 花费 常数 时 间 因 此 运行 时 间 为 OCI E| + 1 VID 

无 圈 图 可 以 模拟 某 种 下 坡 滑 雪 问 题 一 一 我 们 想 要 从 点 a BAS, 但 只 能 走 下 坡 , 显然 不 可 能 
有 圈 。 另 一 个 可 能 的 应 用 是 (不 可 道 ) 化 学 反应 模型 。 我 们 可 以 让 每 个 顶点 代表 实验 的 一 个 特定 
的 状态 , 让 边 代 表 从 一 种 状态 到 另 一 种 状态 的 转变 , 而 边 的 权 代表 释放 的 能 量 。 如 果 只 能 从 高 能 
状态 转变 到 低能 状态 , 那么 图 就 是 无 圈 的 。 

无 圈 图 的 一 个 更 重要 的 用 途 是 关键 路 径 分 析 法 (critical path analysis) 。 我 们 将 用 图 9-33 中 的 
图 作为 例子 。 每 个 节点 表示 一 个 必须 执行 的 动作 以 及 完成 动作 所 花费 的 时 间 。 因 此 , 该 图 叫做 
动作 节点 图 (activity-node graph)。 图 中 的 边 代 表 优 先 关 系 : 一 条 边 (v，w) 意 味 着 动作 v 必须 在 
动作 zw 开始 前 完成 。 当 然 , 这 就 意味 着 图 必须 是 无 圈 的 。 我 们 假设 任何 (直接 或 间接 ) 互 相 不依 
赖 的 动作 可 以 由 不 同 的 服务 器 并 行 地 执行 。 








图 9-33 ”动作 节点 图 


这 种 类 型 的 图 可 以 (并 常常 ) 被 用 来 模拟 方案 的 构建 。 在 这 种 情况 下 , 有 几 个 重要 的 问题 需 
要 回答 。 首 先 , 方案 最 早 完成 时 间 是 何 时 ? 从 图 中 我 们 可 以 看 到 , 沿路 径 A,C,F,H 需要 10 个 
时 间 单 位 。 另 一 个 重要 的 问题 是 确定 哪些 动作 可 以 延迟 , 延迟 多 长 而 不 致 影响 最 少 完成 时 间 。 
例如 , 延迟 A,C, 下 ,五 中 的 任 一 个 都 将 使 完成 时 间 推 迟 10 个 时 间 单 位 。 另 一 方面 , 动作 B 的 影 
啊 不 重要 , 可 以 被 延迟 两 个 时 间 单 位 而 不 至 于 影响 最 后 完成 时 间 。 

为 了 进行 这 些 运算 , 我 们 把 动作 节点 图 转化 成 事件 节点 图 (event-node graph)。 每 个 事件 对 应 
一 个 动作 和 所 有 相关 的 动作 的 完成 。 从 事件 节点 图 中 的 节点 v 可 达到 的 事件 可 以 在 事件 v 完成 
后 开始 。 这 个 图 可 以 自动 构造 , 也 可 以 人 工 构造 。 在 一 个 动作 依赖 于 几 个 其 他 动作 的 情况 下 , 可 
能 需要 插入 哑 边 和 旺 节 点 。 为 了 避免 引进 假 相 关 性 (或 相关 性 的 假 短缺 ), 这 么 做 是 必要 的 。 对 
应 图 9-33 的 事件 节点 图 ,如 图 9-34 所 示 。 
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图 9-34 事件 节点 图 


为 了 找 出 方案 的 最 早 完成 时 间 , 我 们 只 要 找 出 从 第 一 个 事件 到 最 后 一 个 事件 的 最 长 路 径 的 
长 。 对 于 一 般 的 图 , 最 长 路 径 问 题 通常 没有 意义 ,因为 可 能 有 正 值 的 圈 (positive-cost cycle) FTE. 
这 些 正 值 圈 等 价 于 最 短路 问题 中 的 负 值 圈 。 如 果 出 现 正 值 圈 , 那么 我 们 可 以 寻找 最 长 的 简单 路 
径 , Bit, 对 于 这 个 问题 没有 已 知 的 满意 解决 方案 。 由 于 事件 节点 图 是 无 圈 图 , 因此 我 们 不 必 担 
心 圈 的 问题 。 在 这 种 情况 下 , 容易 采纳 最 短路 径 算法 计算 图 中 所 有 节点 的 最 早 完成 时 间 。 如 果 
EC, 是 节点 i 的 最 早 完成 时 间 , 那么 可 用 的 法 则 为 
EC, =0 
EC, = max (EC, + Coin) 
图 9-35 显示 在 我 们 的 例子 中 事件 节点 图 中 每 个 事件 的 最 早 完成 时 间 。 





图 9-35 最早 完成 时 间 


我 们 还 可 以 计算 每 个 事件 能 够 完成 而 又 不 影响 最 后 完成 时 间 的 最 晚 时 间 LC;。 进 行 这 项 工 
作 的 公式 为 
LC, = EC, 
LC, = min „(LCa 7 iJ 
对 于 每 个 顶点 ， 通过 保存 一 个 所 有 邻接 且 在 先 的 项 点 的 表 ， pm —" 借助 
顶点 的 拓扑 顺序 计算 它们 的 最 早 完成 时 间 ， 而 最 晚 完成 时 间 则 通过 倒转 它们 的 拓扑 顺序 来 计算 。 
最 晚 完成 时 间 如 图 9-36 所 示 。 





图 9-36 最 晚 完 成 时 间 


事件 节点 图 中 每 条 边 的 松弛 时 间 (slack time) 代 表 对 应 动作 可 以 被 延迟 而 又 不 至 于 推迟 整体 
的 完成 的 时 间 量 。 容 易 看 出 


Slack (vw) = LC... ES EC, 7 Cou 
9-37 指出 在 事件 节点 图 中 每 个 动作 的 松弛 时 间 ( 作 为 第 三 项 )。 对 于 每 个 节点 , 顶 上 的 数 
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字 是 最 早 完成 时 间 , 底下 的 数字 是 最 晚 完成 时 间 。 





图 9-37 最 早 完成 时 间 、 最 晚 完 成 时 间 和 松弛 时 间 


某 些 动作 的 松弛 时 间 为 零 , 这 些 动作 是 关键 性 的 动作 , 它们 必须 按 计划 结束 。 至 少 存在 一 条 
完全 由 震 -松弛 边 组 成 的 路 径 , 这 样 的 路 径 是 关键 路 径 (critical path). 
9.3.5 所 有 点 对 最 短路 径 

有 时 重要 的 是 要 找 出 图 中 所 有 顶点 对 之 间 的 最 短路 径 。 虽 然 我 们 可 以 运行 | V1 次 适当 的 单 
源 (single-source) 算 法 , 但 是 如 果 要 立即 计算 所 有 的 信息 , 我 们 多 少 还 是 愿意 有 更 快 的 解法 , 尤其 
是 对 于 秽 密 的 图 。 

在 第 10 章 , 我 们 将 看 到 对 赋 权 图 求解 这 种 问题 的 一 个 O(| V1 ) 算 法 。 虽 然 对 于 稠密 图 它 具 
有 和 运行 | V1 次 简单 ( 非 优 先 队列 )Dijkstra 算 法 相同 的 时 间 界 , 但 是 它 的 循环 是 如 此 地 紧凑 以 致 
这 种 专业 化 的 所 有 点 对 算法 很 可 能 在 实践 中 更 快 。 当 然 , 对 于 稀疏 图 更 快 的 是 运行 |V | 次 用 优先 
队列 编写 的 Dijkstra 算法 。 

9.3.6 最 短路 径 的 例子 

本 节 我 们 编写 一 些 java 例 程 来 计算 词 梯 (word ladders) 游 戏 。 在 一 个 词 梯 中 , 每 个 单词 均 由 
其 前 面 的 单词 改变 一 个 字母 而 得 到 。 例 如 , 我 们 可 以 通过 一 系列 单字 母 蔡 换 而 将 zero 转换 成 
five: zero hero here hire fire five, 

这 是 一 个 无 权 最 短路 径 问 题 , 其 中 每 一 个 单词 都 是 一 个 顶点 , 如 果 两 个 单词 可 以 通过 单字 和 母 
替换 而 互相 转换 , 那么 它们 之 间 就 有 边 ( 在 两 个 方向 上 )。 

在 4.8 节 , 我 们 描述 并 编写 了 一 个 例 程 ,该 例 程 创建 一 个 Map, 在 这 个 Map F, 关键 字 是 单 
ia], 相应 的 值 是 包含 从 一 个 单字 母 变换 得 到 的 一 些 单词 的 表 。 同 样 , 这 个 Map 代表 一 个 图 , 我 们 
只 需 编 写 一 个 例 程 来 运行 单 源 最 短路 径 算 法 ,而 第 2 个 例 程 则 在 单 源 最 短路 径 算法 计算 完 后 输 
出 单词 序列 。 这 两 个 例 程 均 在 图 9-38 中 写 出 ， 

第 一 个 例 程 是 findChain, 它 利用 Map 表示 邻接 表 和 和 两 个 要 被 连接 的 单词 , 同时 返回 一 个 Map, 
在 该 Map 中 , 关键 字 是 单词 ， 而 相应 的 值 是 位 于 从 first 开始 的 最 短 词 梯 上 的 关键 字 前 面 的 那个 单 
ij. ROAR, 在 上 面 的 例子 中 , 如果 开始 的 单词 是 zero, 关键 字 five 的 值 是 fire, 关键 字 fire 
的 值 是 hire, 关键 字 hire 的 值 是 here, 等 等 。 显 然 , 这 给 第 2 个 例 程 getChainFromPreviousMap 提 
供 了 足够 的 信息 , 后 者 以 向 后 的 方式 运行 。 

findChain 是 图 9-18 中 伪 代 码 的 直接 实现 。 它 假设 first 是 合法 的 单词 , 这 是 调用 前 的 一 个 
容易 检测 的 条 件 。 基 本 循环 不 正确 地 为 first 指定 前 面 的 一 项 ( 当 邻 接 的 初始 单词 被 处 理 时 )， 因 
此 第 25 行将 这 一 项 进行 了 调整 。 

getChainFromPreviousMap 使 用 prev Map 和 second, 它 是 Map 中 的 一 个 关键 字 并 返回 用 于 形 
成 词 梯 的 那些 单词 , 通过 prev 向 后 工作 。 通 过 使 用 LinkedList 并 在 前 头 插入 , 我 们 得 到 以 正确 
顺序 排列 的 词 梯 。 

能 够 把 这 个 问题 推广 到 允许 包括 删除 字母 和 添加 字母 的 单字 母 蔡 换 的 情形 。 计 算 邻 接 表 只 
需要 多 做 一 点 工作 : 在 4.8 节 最 后 的 算法 中 , 每 次 组 g 中 的 单词 w 的 代表 被 计算 时 , 我 们 均 检 测 
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// Runs the shortest path calculation from the adjacency map, returns a List 
// that contains the sequence of word changes to get from first to second. 
// Returns null if no sequence can be found for any reason. 
public static List<String> 
findChain( Map<String,List<String>> adjacentWords, String first, String second ) 
{ 
. Map<String,String> previousWord = new HashMap<String,String>( ); 
LinkedList<String> q = new LinkedList<String>( ); 


q.addLast( first ); 
while( !q.isEmpty( ) ) 
{ 


String current = q.removeFirst( ); 
List<String> adj = adjacentWords.get( current ); 


if( adj != nul! ) 
for( String adjWord : adj ) 
if( previousWord.get( adjWord ) == null ) 
{ 
previousWord.put( adjWord, current ); 
q.addLast( adjWord ); 


} 


previousWord.put( first, null ); 


return getChainFromPreviousMap( previousWord, first, second ); 


) 


// After the shortest path calculation has run, computes the List that 

// contains the sequence of word changes to get from first to second. 

// Returns null if there is no path. 

public static List<String> getChainFromPreviousMap( Map«String,String» prev, 
String first, String second ) 

( 


LinkedList«String» result = null; 


if( prev.get( second ) != null ) 
{ 
result = new LinkedList<String>( ); 
for( String str = second; str !- null; str = prev.get( str ) ) 
result.addFirst( str ); 
} 


return result; 





图 9-38 求 词 梯 的 Java (IER 


这 个 代表 是 否 是 组 g - 1 中 的 单词 。 如 果 是 , 那么 这 个 代表 就 邻接 到 w( 它 是 一 个 单字 母 删 除 )， 
而 w 被 邻接 到 该 代表 ( 它 是 一 个 单字 母 添加 )。 也 可 能 指定 一 个 值 到 字母 的 删除 或 插入 ( 它 高 于 单 
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FERR), 并 产生 一 个 可 以 用 Dijkstra 算 法 求解 的 赋 权 最 短路 径 问 题 。 
9.4 ”网络 流 问题 


设 给 定 有 向 图 G=(V,E), 其 边 容量 为 c,,,。 这 些 容量 可 以 代表 通过 一 个 管道 的 水 的 流量 
或 在 两 个 交叉 路 口 之 间 马 路 上 的 交通 流量 。 
有 两 个 顶点 , 一 个 是 s, 称 为 发 点 (sorce); 一 
个 是 上 ， 称 为 收 点 (sink)。 对 于 任 一 条 边 (v， 
w), 最 多 有 “ 流 ” 的 cv 个 单位 可 以 通过 。 在 
既 不 是 发 点 s 又 不 是 收 点 上 的 任 一 顶点 v， 总 
的 进入 的 流 必须 等 于 总 的 发 出 的 流 。 最 大 流 
问题 就 是 确定 从 s 到 t 可 以 通过 的 最 大 流量 。 
例如 ,对 于 图 9-39 中 左边 的 图 , 最 大 流 是 5, 
如 右边 的 图 所 示 。 

正如 问题 叙述 中 所 要 求 的 , 没有 边 负载 图 9-39 一 个 图 (左边 ) 及 其 最 大 流 
超过 它 的 容量 的 流 。 顶 点 a 有 3 个 单位 的 流 
BHA, 它 将 这 3 个 单位 的 流转 分 给 Md, MA d 从 a Mb 得 到 3 个 单位 的 流 , 并 把 它们 结合 起 
来 发 送 到 t。 一 个 顶点 可 以 以 它 喜 欢 的 任何 方式 结合 和 发 送 流 ， 只 要 不 破坏 边 的 容量 以 及 保持 流 
守恒 (进入 的 必然 都 流出 ) 即 可 。 

一 种 简单 的 最 大 流 算法 

解决 这 种 问题 的 首要 想法 是 分 阶段 进行 。 我 们 从 图 G 开始 并 构造 一 个 流 图 G,. G 表示 在 
算法 的 任意 阶段 已 经 达到 的 流 。 开 始 时 Gy 的 所 有 的 边 都 没有 流 , 我 们 希望 当 算法 终止 时 Gr 包 
含 最 大 流 。 我 们 还 构造 一 个 图 G,, 称 为 残余 图 (residual graph) ， 它 表示 对 于 每 条 边 还 能 再 添加 上 
多 少 流 。 对 于 每 一 条 边 , 我 们 可 以 从 容量 中 减 去 当前 的 流 而 计算 出 残余 的 流 。G, 的 边 叫 做 残余 
边 (residual edge), 

在 每 个 阶段 , 我 们 寻找 图 G, PMs Ble 的 一 条 路 径 , 这 条 路 径 叫 做 增长 通路 (augmenting 
path)。 这 条 路 径 上 的 最 小 边 值 就 是 可 以 添加 到 路 径 每 一 边 上 的 流 的 量 。 我 们 通过 调整 G 和 重 
新 计算 G, 做 到 这 一 点 。 当 发 现在 G, 中 没有 从 s Be 的 路 径 时 算法 终止 。 这 个 算法 是 不 确定 的 ， 
因为 我 们 是 随便 选择 从 * 到 + 的 任意 的 路 径 。 显 然 ,有些 选 择 会 比 另 外 一 些 选择 更 好 , 后面 我 们 
再 处 理 这 个 问题 。 我 们 将 对 我 们 的 例子 运行 这 个 算法 。 下 面 的 图 分 别 是 G.G, 和 G,。 要 记 着 这 
个 算法 有 一 个 小 缺 欠 。 初 始 的 配置 见 图 9-40。 








图 9-40 图 、 流 图 以 及 残余 图 的 初始 阶段 


在 残余 图 中 有 许多 从 s 到 上 的 路 径 。 假 设 我 们 选择 s b d 上。 此 时 我 们 可 以 发 送 2 个 单位 的 
流通 过 这 条 路 径 的 每 一 边 。 约 定 : 一 旦 注 满 (使 饱和 ) 一 条 边 , 则 这 条 边 就 要 从 残余 图 中 除去 。 这 
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EE, 得 到 图 9-41. 





图 9-41 沿 5,5,d,t 加 入 2 个 单位 的 流 后 的 G、Gy、G， 


下 面 , 我 们 可 以 选择 路 径 s.a c.t, 该 路 径 也 容许 2 个 单位 的 流通 过 。 进 行 必要 的 调整 后 ， 
我 们 得 到 图 9-42 中 的 图 。 





图 9-42 沿 s,a,c,t 加 入 2 个 单位 的 流 后 的 GGG, 


唯一 剩 下 要 选择 的 路 径 是 ;,a,d,1, 这 条 路 径 能 够 容纳 一 个 单位 的 流通 过 。 结 果 得 到 
图 9-43 所 示 的 图 。 





O] © 
gi  e—6 
2 M 2: l 3 
© Y © G 
b 2" 
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图 9-43 沿 s,a,d,t 加 入 1 个 单位 的 流 后 的 G、G、G, 一 一 算法 终止 


由 于 z 从 s 出 发 是 不 可 到 达 的 , 因此 算法 到 此 终止 。 结 果 正好 5 个 单位 的 流 是 最 大 值 。 为 了 

看 清 问题 的 所 在 , 设 从 初始 图 开始 我 们 选择 路 径 s, a. d, t, 这 条 路 径 容纳 3 个 单位 的 流 因而 好 

像 是 一 种 好 的 选择 。 然 而 选择 的 结果 却 使 得 在 残余 图 中 不 再 有 从 s 到 上 的 任何 路 径 , 因此 , 我 们 
的 算法 不 能 找到 最 优 解 。 这 是 贪 禁 算法 行 不 通 的 一 个 例子 。 图 9-44 指出 为 什么 算法 失败 。 

为 了 使 得 算法 有 效 , 我 们 需要 让 算法 改变 它 的 意向 。 为 此 , 对 于 流 图 中 具有 流 大 .的 每 一 边 

(vw), 我 们 将 在 残余 图 中 添加 一 条 容量 为 fpl w, v) FKE, 我 们 可 以 通过 以 相反 的 

方向 发 加 一 个 流 而 使 算法 解除 它 原 来 的 决定 。 通 过 例子 最 能 看 清 这 个 问题 。 我 们 从 原始 的 图 开 
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图 9-44 “如果 初始 动作 是 沿 *,a,d,t 加 入 3 个 单位 的 流 后 得 到 
G .Gr .G, 一 一 算法 终止 但 解 不 是 最 优 的 


始 并 选择 增长 通路 s,a,d,t, 得 到 图 9-45 中 的 图 。 





图 9-45 ”使 用 正确 的 算法 沿 ;,a,d,t 加 入 3 个 单位 的 流 后 的 图 


注意 , 在 残余 图 中 有 些 边 在 a Md 之 间 有 两 个 方向 。 或 者 还 有 一 个 单位 的 流 可 以 从 a Bd 
导向 , 或 者 有 高 达 3 个 单位 的 流 导 向 相反 的 方向 一 一 我 们 可 以 撤销 流 。 现 在 算法 找到 流 为 2 的 增 
长 通路 s,6,d,a,c,to XE IA d 到 a 导 人 2 个 单位 的 流 , 算法 从 边 (a,d) 取 走 2 个 单位 的 流 , A 
此 本 质 上 改变 了 它 的 原意 。 图 9-46 显示 出 新 的 图 。 








图 9-46 使 用 正确 算法 沿 s,b,d,a,c,t 加 人 2 个 单位 的 流 后 的 图 


在 这 个 图 中 没有 增长 通路 , 因此, 算法 终止 。 奇 怪 
的 是 , 可 以 证 明 , 如 果 边 的 容量 都 是 有 理 数 , 那么 该 算 
法 总 以 最 大 流 终止 。 证 明 多 少 有 些 困难 , 也 超出 了 本 书 
的 范围 。 虽 然 这 个 例子 正好 是 无 轿 的 , 但 这 并 不 是 算法 
有 效 运行 所 必须 的 。 我 们 使 用 无 圈 图 只 是 为 了 简明 。 
如 果 容 量 都 是 整数 且 最 大 流 为 f, 那么 , 由 于 每 条 增 
长 通路 使 流 的 值 至 少 增 1, 故 f 个 阶段 足够 , 从 而 总 的 运行 
时 间 为 OIEI, 因为 通过 无 权 最 短路 径 算法 一 条 增长 图 9-47 经 典 的 坏 的 增长 情形 
通路 可 以 以 O(|E|) 时 间 找到 。 说 明 为 什么 这 个 时 间 是 坏 的 运行 时 间 的 经 典 例子 , 如 图 9-47 所 示 。 
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最 大 流通 过 沿 每 条 边 发 送 1000 000 并 查验 到 2 000 000 而 看 出 。 随 机 的 增长 通路 可 以 沿 包含 
由 a Alb 连接 的 边 的 路 径 连 续 增长 。 要 是 这 种 情况 重复 发 生 , 那 就 需要 2 000 000 条 增长 通路 ， 
可 是 此 时 我 们 仅 用 2 条 增长 通路 就 可 得 出 最 大 流 。 

避免 这 个 问题 的 简单 方法 是 总 选择 容许 在 流 中 最 大 增长 的 增长 通路 。 寻 找 这 样 一 条 路 径 类 
似 于 求解 一 个 赋 权 最 短路 径 问题 而 对 Dijkstra 算法 的 单线 (single-line) 修 改 将 会 完成 这 项 工作 。 如 
JE. cap 为 最 大 边 容量 , 那么 可 以 证 明 ，O(|Ellog capwmow) 条 增长 通路 将 足以 找到 最 大 流 。 在 这 
种 情况 下 , 由 于 对 于 增长 通路 的 每 一 次 计算 都 需要 O(1E|log1V|) 时 间 , 因此 总 的 时 间 界 为 
O(| El?log| Vi log capmex)。 如 果 容 量 均 为 小 整数 , 则 该 界 可 以 减 为 OUE ogl Vl). 

另 一 种 选择 增长 通路 的 方法 是 总 选取 具有 最 少 边 数 的 路 径 , 有 理由 期 望 , 通过 以 这 种 方式 选 
择 路 径 不 太 可 能 使 该 路 径 上 出 现 一 条 小 的 、 限 制 了 流 的 边 。 使 用 这 种 法 则 , 可 以 证 明 需 要 
O(| 巨 外 V|) 步 增长 。 每 一 步 花费 OCLE D REIR], 青 使 用 无 权 最 短路 径 算法 , 则 得 到 运行 时 间 界 
OC[EI?| VI). 

有 可 能 对 这 一 算法 进行 进一步 的 数据 结构 改进 , 存在 几 个 更 加 复杂 的 算法 。 长 期 以 来 对 界 
的 改进 降低 了 该 问题 当前 熟知 的 界 。 虽 然 尚 未 见 到 OCLE I| V|) 算 法 的 报告 , 但 是 一 些 具有 界 
OC E || VllogC| VI?7/| E| DD RI OCIEI VIl+|V1***) 的 算法 已 经 被 发 现 ( 见 参 考 文献 )。 还 有 
许多 在 一 些 特殊 情形 下 非常 好 的 界 。 例 如 , 若 图 除 发 点 和 收 点 外 所 有 的 顶点 都 有 一 条 容量 为 1 
的 人 边 或 一 条 容量 为 1 的 出 边 , 则 该 图 的 最 大 流 可 以 以 时 间 OUE || Vi“) 找 到 。 这 些 图 出 现在 
许多 应 用 中 。 

产生 这 些 界 的 那些 分 析 过 程 是 相当 复杂 的 , 并 且 还 不 清楚 最 坏 情 形 的 结果 是 如 何 与 实际 当 
中 用 到 的 运行 时 间 发 生 关 系 的 。 一 个 相关 的 、 甚 至 更 困难 的 问题 是 最 小 值 流 (min-cost flow) 问 题 。 
每 条 边 不 仅 有 容量 ,而 且 还 有 每 个 单位 流 的 ( 价 ) 值 ,而 问题 则 是 在 所 有 的 最 大 流 中 找 出 一 个 最 小 
( 价 ) 值 的 流 来 。 目 前 对 这 两 个 问题 的 研究 都 在 积极 地 进行 。 


9.5 最 小 生成 树 


我 们 将 要 考虑 的 下 一 个 问题 是 在 一 个 无 向 图 中 找 出 一 棵 最 小 生成 树 (minimum spanning tree) 
的 问题 。 这 个 问题 对 有 向 图 也 是 有 意义 的 , 不 过 找 起 来 更 困难 。 大 体 上 说 来 , 一 个 无 向 图 G 的 
最 小 生成 树 就 是 由 该 图 的 那些 连接 G 的 所 有 顶点 的 边 构成 的 树 , 且 其 总 价值 最 低 。 最 小 生成 树 
存在 当 且 仅 当 G 是 连通 的 。 虽 然 一 个 强壮 的 算法 应 该 指出 G 不 连通 的 情况 , 但 是 我 们 还 是 假设 
G 是 连通 的 , 而 把 算法 的 健壮 性 作为 练习 留 给 读者 。 

在 图 9-48 中 第 二 个 图 是 第 一 个 图 的 最 小 生成 树 ( 碰 
巧 还 是 唯一 的 , 但 这 并 不 代表 一 般 情 况 )。 注 意 , 在 最 
小 生成 树 中 边 的 条 数 为 | VL - 1。 最 小 生成 树 是 一 棵 
BE, 因为 它 无 圈 ; 而 由 于 最 小 生成 树 包含 每 一 个 顶点 ， 
因此 它 是 生成 树 ; 此 外 , 它 显 然 是 包含 图 的 所 有 顶点 的 
最 小 的 树 。 如 果 我 们 需要 用 最 少 的 电线 给 一 所 房子 安 
装 电路 (假设 没有 其 他 的 电路 约束 ), 那 就 需要 解决 最 小 
生成 树 问题 。 

对 于 任 一 生成 树 工 ,如果 将 一 条 不 属于 工 的 边 e 
添加 进来 , 则 产生 一 个 圈 。 如 果 从 该 圈 中 除去 任意 一 条 
xh, 则 又 恢复 生成 树 的 特性 。 如 果 边 e 的 值 比 除去 的 边 
的 值 低 , 那么 新 的 生成 树 的 值 就 比 原生 成 树 的 值 低 。 如 图 948 图 G 及 其 最 小 生成 树 
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果 在 建立 生成 树 时 所 添加 的 边 在 所 有 避免 成 圈 的 边 中 其 值 最 小 , 那么 最 后 得 到 的 生成 树 的 值 不 
能 再 改进 , 因为 任意 一 条 替代 的 边 都 将 与 已 经 存在 于 该 生成 树 中 的 一 条 边 至 少 具有 相同 的 值 。 
这 说 明 , 对 于 最 小 生成 树 , 贪 禁 的 做 法 是 成 立 的 。 我 们 介绍 两 种 算法 , 它们 的 区 别 在 于 最 小 ( 值 
的 ) 边 如 何 选 取 上 。 
9.5.1 Prim 算 法 

计算 最 小 生成 树 的 一 种 方法 是 使 其 连续 地 一 步 步 长 成 。 在 每 一 步 , 都 要 把 一 个 节点 当 作 根 
并 往 上 加 边 , 这 样 也 就 把 相关 联 的 顶点 加 到 增长 中 的 树 上 。 

在 算法 的 任 一 时 刻 , 我 们 都 可 以 看 到 一 组 已 经 添加 到 树 上 的 顶点 ,而 其 余 顶 点 尚未 加 到 这 棵 
树 中 。 此 时 , 算法 在 每 一 阶段 都 可 以 通过 选择 边 (w ,vw) 使 得 (uw ,wv) 的 值 是 所 有 u 在 树 上 但 v 不 在 
树 上 的 边 的 值 中 的 最 小 者 而 找 出 一 个 新 的 顶点 并 把 它 添加 到 这 棵 树 中 。 图 9-49 指出 该 算法 如 何 
从 v, 开始 构建 最 小 生成 树 。 开 始 时 ，zm 在 构建 中 的 树 上 , 它 作 为 树 的 根 但 是 没有 边 。 每 一 步 添 
加 一 条 边 和 一 个 顶点 到 树 上 。 
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图 9-49 在 每 一 步 之 后 的 Prim 算法 


我 们 可 以 看 到 ，Prim 算法 基本 上 和 求 最 短路 径 的 Dijkstra 算法 相同 , 因此 和 前 面 一 样 , 我们 
对 每 一 个 顶点 保留 值 d, Mp, 以 及 一 个 指标 , 标示 该 顶点 是 known( 已 知 ) 的 还 是 unknown( 未 知 ) 
的 。 这 里 , d, 是 连接 wv 到 已 知 顶点 的 最 短 边 的 权 , 而 p, 则 是 导致 d, 改变 的 最 后 的 顶点 。 算 法 的 
其 余部 分 完全 一 样 , 只 有 一 点 不 同 : 由 于 a, 的 定义 不 同 , 因此 它 的 更 新 法 则 也 不 同 。 对 于 这 个 
问题 , 更 新 法 则 比 以 前 更 简单 : 在 每 一 个 顶点 o 被 选取 以 后 , 对 于 每 一 个 与 v 邻接 的 未 知 的 ww， 
dy = min(d,,, cw.v)o 

表 的 初始 状态 由 图 9-504814. v, HAER, vuu 被 更 新 。 结 果 由 图 9-51 中 的 表 指 出 。 下 
一 个 顶点 选取 vw, 每 一 个 顶点 都 与 v, 邻接 。zl 不 考虑 , 因为 它 是 已 知 的 。w, HE, 因为 d,=2 而 
BU v, 到 v; 的 边 的 值 是 3; 所 有 其 他 的 顶点 都 被 更 新 。 图 9-52 显示 得 到 的 结果 。 下 一 个 要 选取 
的 顶点 是 v,。 这 并 不 影响 任何 距离 。 然 后 选取 v, 它 影响 到 ve 的 距离 ， 见 图 9-53。 选 取 v 得 到 
图 9-54, v7 的 选取 迫使 ve 和 vs 进行 调整 。 然 后 分 别 选 取 ve 和 vs, 算法 完成 。 

最 后 的 表 在 图 9-55 中 给 出 。 生 成 树 的 边 可 以 从 该 表 中 读 出 : (v, v), (u, v), Cuv), 
(vs, v3) (ve, v1) (vp, v4)o. BU EEE 16。 

该 算法 整个 的 实现 实际 上 和 Dijkstra 算法 的 实现 是 一 样 的 , 对 于 Dijkstra 算法 分 析 所 做 的 每 
一 件 事 都 可 以 用 到 这 里 。 不 过 要 注意 ,Prim 算法 是 在 无 向 图 上 运行 的 , 因此 当 编 写 代 码 时 要 记 
住 把 每 一 条 边 都 要 放 到 两 个 邻接 表 中 。 不 用 堆 时 的 运行 时 间 为 O(| V1*), 它 对 于 稠密 的 图 来 说 
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是 最 优 的。 使 用 二 又 堆 的 运行 时 间 是 OC! EH log] VD, XSCT REEL) TE E T ERIT e 


v known , 














d, b. v knoum d, py 
U| F 0 0 UI T 0 0 
U2 F oo 0 v2 F 2 Vi 
Uy F oo 0 Ua F 4 v| 
U4 F oo 0 US F | vI 
Us F oc 0 Us F oo 0 
U6 F oo 0 ve E = 0 
vj F oo 0 Uj F oo 0 

图 9-50 在 Prim 算 法 中 所 使 用 的 表 的 初始 配置 9-5] Æ v, 声明 为 known 后 的 表 
v known d, b. v known d, Ps 
U| T 0 0 vy T 0 0 
v2 F 2 v] U2 T 2 v] 
U3 F 2 Us Uy T 2 Us 
V4 T l Ui Us T 1 vy 
"Us F 7 Ua Us F 7 Ua 
vs F 8 Ua v6 F 5 V3 
v7 F 4 Ua v7 F 4 Ua 
图 9-52 在 v, 声明 为 known 后 的 表 图 9-53 在 v 和 v3 先后 声明 为 nowm 后 的 表 
v known d, Py v known d, Pb. 
vy F 0 U| x 0 0 
v2 T 2 UI v2 工 2 UI 
v3 T 2 U4 U3 T 2 U4 
Ua T 1 Ui U4 T l vy 
us F 6 v7 Us T 6 Uj 
U6 F ] v7 Vo T i v7 
v; T 4 và vr T 4 » 
图 9-54 在 v; 声明 为 known 后 的 表 图 9-55 在 ve 和 zs 选取 后 的 表 (Prim 算法 终止 ) 


9.5.2 Kruskal 算法 


第 二 种 贪 禁 策 略 是 连续 地 按照 最 小 的 权 选 择 边 , 并 且 当 所 选 的 边 不 产生 圈 时 就 把 它 作 为 所 
取 定 的 边 。 该 算法 对 于 前 面 例 子 中 的 图 的 实施 过 程 如 一 一 一 一 一 一 一 一 一 一 一 


形式 上 ，Kruskal 算法 是 在 处 理 一 个 森林 一 一 树 的 集合 。 — 接受 
开始 的 时 候 , 存在 | V| 棵 单 节点 树 ,而 添加 一 边 则 将 两 棵 树 (un) 
合并 成 一 棵 树 。 当 算法 终止 的 时 候 , 就 只 有 一 棵 树 了 , 这 棵 evo 2 GR 
树 就 是 最 小 生成 树 。 图 9-57 显示 边 被 添加 到 森林 中 的 。 CBR 
顺序 。 (v4.07) 4 接受 

当 添加 到 森林 中 的 边 足 够 多 时 算法 终止 。 实 际 上 , 算法 。 (s) SHE 
就 是 要 决定 边 (u,v) 应 该 添加 还 是 应 该 放弃 。 第 8 章 中 的 。_ (os.w) 6 接受 


Union/Find 算法 适用 于 这 里 的 数据 结构 。 9-56 Kruskal 算法 施 于 图 G 的 情况 


Download at http:// www.pin5i.com/ 


Att E x 261 


© © "n Q © 
© © (G—0 © 0-0 0 @ 
O O C) © 
QD YH QD 
C) O 6-631 0-628, € 
的 一 这 
四 一 一 的 
Oy 6H 
的 一 这 


图 9-57 在 每 一 步 之 后 的 Kruskal 算法 


我 们 用 到 的 一 个 恒定 的 事实 是 , 在 算法 实施 的 任 一 时 刻 , 两 个 顶点 属于 同一 个 集合 当 且 仅 当 
它们 在 当前 的 生成 森林 (spanning forest) 中 连通 。 因 此 , 每 个 顶点 最 初 是 在 它 自己 的 集合 中 。 如 
Ku 和 uv 在 同一 个 集合 中 , 那么 连接 它们 的 边 就 要 放弃 ，, 由 于 他 们 已 经 连通 了 , 因此 再 添加 边 
(u,v) 就 会 形成 一 个 图 。 如 果 这 两 个 顶点 不 在 同一 个 集合 中 , 则 将 该 边 加 入 , 并 对 包含 顶点 u 和 
v 的 这 两 个 集合 实施 一 次 union。 容 易 看 到 , 这 样 将 保持 集合 不 变性 ,因为 一 旦 边 (x ,wv) 添 加 到 
生成 森林 中 , Ew 连通 到 而 zx 连通 到 wv, Wc 和 zw 必然 是 连通 的 , 因此 属于 相同 的 集合 。 

固然 , 将 边 排 序 可 便于 选取 , 不 过 , 用 线性 时 间 建 立 一 个 堆 则 是 更 好 的 想法 。 此 时 ， 
DeleteMin 将 使 得 边 依 序 得 到 测试 。 典 型 情况 下 , 在 算法 终止 前 只 有 一 小 部 分 边 需要 测试 , 尽管 
必须 尝试 所 有 的 边 的 情况 总 是 有 可 能 的 。 例 如 , 假设 还 有 一 个 顶点 vs 以 及 值 为 100 KHC os, 
vg), 那么 所 有 的 边 就 会 都 被 考察 到 。 图 9-58 中 的 Kruskal 方法 可 以 找 出 一 棵 最 小 生成 树 。 


void kruskal( ) 


( 
int edgesAccepted = 0; 


DisjSet ds = new DisjSets( NUM VERTICES ); 

PriorityQueue<Edge> pq = new PriorityQueue<Edge>( getEdges( ) ); 
Edge e; 

Vertex u, v; 


while( edgesAccepted < NUM VERTICES - 1 ) 
( 
e = pq.deleteMin( ); // Edge e = (u, v) 
SetType uset = ds.find( u ); 
SetType vset = ds.find( v ); 
if( uset != vset ) 


// Accept the edge 
edgesAccepted++; 
ds.union( uset, vset ); 





图 9-58 Kruskal 算法 的 伪 代 码 
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该 算法 的 最 坏 情 形 运 行 时 间 为 O(|E|log|E|), 它 受 堆 操 作 控 制 。 注 意 , 由 于 |E| = O(1V1”)， 
因此 这 个 运行 时 间 实 际 上 是 OC E| log] V|)。 在 实践 中 , 该 算法 要 比 这 个 时 间 界 指示 的 时 间 快 得 
多 。 


9.6 深度 优先 搜索 的 应 用 


深度 优先 搜索 (depth-first search) 是 对 先 序 遍历 (preorder traversal) 的 推广 。 我 们 从 某 个 顶点 v 
开始 处 理 v, 然后 递归 地 遍历 所 有 与 v 邻接 的 顶点 。 如 果 这 种 过 程 是 对 一 棵 树 进行 , 那么 , 由 于 
IE| 2 eC VD, 因此 该 树 的 所 有 的 顶点 在 总 时 间 OCEL) 
内 都 将 被 系统 地 访问 到 。 如 果 我 们 对 任意 的 图 进行 该 | 1 
HE, 那么 我 们 需要 小 心 仔 细 以 避免 圈 的 出 现 。 为 Held bag Reba cele ted 
此 ， 当 访问 一 个 顶点 o 的 时 候 , 由 于 我 们 当时 已 经 到 if( Mw.vistted ) 

了 该 点 处 , 因此 可 以 标记 该 点 是 访问 过 的 , 并 且 对 于 dfs( w ); 

尚未 被 标记 的 所 有 邻接 项 点 递归 调用 深度 优先 搜索 。 
我 们 假设 , 对 于 无 向 图 , 每 条 边 (v,w) 在 邻接 表 中 出 
现 两 次 : 一 次 是 (v,w), 男 一 次 是 (w,v)。 图 9-59 中 ——— 

的 过 程 执行 一 次 深度 优先 搜索 (此 外 绝对 什么 也 不 做 ) ,从 而 是 一 个 一 般 风 格 的 模板 。 

对 每 一 个 顶点 , 域 visited 初始 化 成 false。 通 过 只 对 那些 尚未 被 访问 的 节点 递归 调用 该 过 
E, 我 们 保证 不 会 陷 人 无 限 的 循环 。 如 果 图 是 无 向 的 且 不 连通 的 , 或 是 有 向 的 但 非 强 连 通 的 , 这 
种 方法 可 能 会 访问 不 到 某 些 节点 。 此 时 , 我 们 搜索 一 个 未 被 标记 的 节点 , 然后 应 用 深度 优先 遍 
历 , 并 继续 这 个 过 程 直到 不 存在 未 标记 的 节点 为 止 2。 因 为 该 方法 保证 每 一 条 边 只 访问 一 次 , 所 
以 只 要 使 用 邻接 表 , 则 执行 遍历 的 总 时 间 就 是 O(|E| + |1V|)。 

9.6.1 无 向 图 

无 向 图 是 连通 的 , 当 且 仅 当 从 任 一 节点 开始 的 深度 优先 搜索 访问 到 每 一 个 节点 。 因 为 这 项 
测试 应 用 起 来 非常 容易 , 所 以 将 假设 我 们 处 理 的 图 都 是 连通 的 。 如 果 它 们 不 连通 , 那么 可 以 找 出 
所 有 的 连通 分 支 并 将 我 们 的 算法 依次 应 用 于 每 个 分 支 。 

作为 深度 优先 搜索 的 一 个 例子 , 设 在 图 9-60 的 图 中 从 A 点 开始 。 此 时 , 标记 A 为 访问 过 的 
并 递归 调用 dfs(B)。dfs(B) 标 记 B 为 访问 过 的 并 递归 调用 
dfs(C)。dfs(C) 标 记 C 为 访问 过 的 并 递归 调用 dfs(D)。 
dfs(D) 遇 到 A MB, 但 是 这 两 个 节点 都 已 经 被 标记 过 , A 
此 没有 递归 调用 可 以 进行 。dfs(D) 也 看 到 C 是 邻接 的 顶 
A, 但 C 也 标记 过 了 , 因此 在 这 里 也 没有 递归 调用 进行 , 于 
是 dfs(D) 返 回 到 dfs(C)。dfs(C) 看 到 B 是 邻接 点 , ABE, 
并 发 现 以 前 没 看 见 的 顶点 下 也 是 邻接 点 , 因此 调用 dfs(E)。 图 9-60 一 个 无 向 图 
dfs(E) 将 五 作 标 记 , 忽略 A fü C, 并 返回 到 dfs(C)。dfs(C) 
返回 到 dfs(B)。dfs(B) 忽 略 A 和 六 并 返回 。dfs(A) 忽 略 D 和 五 且 返 回 。( 我 们 实际 上 已 经 接触 
每 条 边 两 次 , 一 次 是 作为 边 (v,w), 再 一 次 是 作为 边 (w,v), 但 这 实际 上 是 每 个 邻接 表 项 接触 一 
次 。) 


void dfs( Vertex v ) 








O 其 实现 的 一 种 高 效 方法 是 从 v 开始 深度 优先 搜索 。 如 果 我 们 需要 重新 开始 深度 优先 搜索 , 则 对 于 一 个 未 标记 的 
顶点 考查 序列 ww …， 其 中 vw _ ,是 最 后 一 次 深度 优先 搜索 开始 处 的 顶点 。 这 保证 整个 算法 只 花费 OUVI) 
时 间 查 找 那些 使 新 的 深度 优先 搜索 树 开始 的 顶点 。 
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我 们 用 深度 优先 生成 树 (depth first spanning tree) 以 图 形 方式 来 描述 上 面 的 步骤 。 该 树 的 根 是 A, 
是 第 一 个 被 访问 到 的 顶点 。 图 中 的 每 一 条 边 (v,ww) 都 
出 现在 树 上。 如 果 当 我 们 处 理 (v,w) 时 发 现 w 是 未 被 
标记 的 , 或 当 处 理 (ww,v) 时 发 现 v 是 未 标记 的 , 那么 我 
们 就 用 树 的 一 条 边 来 表示 它 。 如 果 当 处 理 (u，zm) 时 发 
Ww 已 被 标记 , HAMA w, v RER v CAPR, 
那么 我 们 就 画 一 条 虚线 , 并 称 之 为 背 向 边 (back edge), 
表示 这 条 “ 边 " 实 际 上 不 是 树 的 一 部 分 。 图 9-60 中 的 图 
的 深度 优先 搜索 在 图 9-61 中 表 出 。 
树 将 模拟 我 们 执行 的 遍历 。 只 使 用 树 的 边 对 该 树 “图 9-61 图 9-60 的 深度 优先 搜索 
的 先 序 编号 (preorder numbering) 告 诉 我 们 这 些 顶 点 被 标 
记 的 顺序 。 如 果 图 不 是 连通 的 , 那么 处 理 所 有 的 节点 (和 边 ) 则 需要 多 次 调用 dfs, 每 次 都 生成 一 
棵 树 , 整个 集合 就 是 深度 优先 生成 森林 (depth-first spanning forest) o 


9.6.2 双 连 通 性 


一 个 连通 的 无 向 图 如 果 不 存在 被 删除 之 后 使 得 剩 下 的 图 不 再 连通 的 顶点 , 那么 这 样 的 无 向 
连通 图 就 称 为 是 双 连 通 (biconnected) 的 。 上 例 中 的 图 是 双 连 通 的 。 如 果 例 中 的 节点 是 计算 机 ， 边 
ER, RA, 若 有 任 一 台 计 算 机 出 故障 而 不 能 运行 , 则 网 络 邮 件 不 受 影响 ,当然 , 与 这 台 坏 计 
算 机 有 关 的 邮件 除外 。 类 似 地 ,如 果 一 个 公共 运输 系统 是 双 连 通 的 , 那么 , 若 某 个 站 点 被 破坏 ， 
则 用 户 总 可 选择 另外 的 旅行 路 径 。 

如 果 一 个 图 不 是 双 连 通 的 , 那么 , 将 其 删除 使 图 不 再 连通 的 那些 顶点 叫做 割 点 (articulation point). 
这 些 节点 在 许多 应 用 中 是 很 重要 的 。 图 9-62 中 的 图 不 是 双 
连通 的 : 顶点 CRI D 都 是 割 点 。 删 除 项 点 D 使 图 G 不 连 
8, 而 删除 顶点 DUE E A FAR G 的 其 余部 分 断 离 。 

深度 优先 搜索 提供 一 种 找 出 连通 图 中 的 所 有 割 点 的 
线性 时 间 算 法 。 首 先 , 从 图 中 任 一 顶点 开始 , 执行 深度 优 
先 搜索 并 在 顶点 被 访问 时 给 它们 编号 。 对 于 每 一 个 顶点 
v 我 们 称 其 先 序 编号 为 Num(v)。 然 后 , 对 于 深度 优先 搜 
索 生 成 树 上 的 每 一 个 顶点 v, 计算 编号 最 低 的 顶点 , RN 
BZA Low(v), 该 点 可 从 v 开始 通过 树 的 零 条 或 多 条 边 
且 可 能 还 有 一 条 背 向 边 而 (以 该 序 ) 达 到 。 图 9-63 中 的 深度 优先 搜索 树 首 先 指出 先 序 编号 , 然后 
指出 在 上 述 法 则 下 可 达到 的 最 低 编 号 顶点 。 

通过 A. B 和 C 可 达到 的 最 低 编号 顶点 为 顶点 IA), 因为 它们 都 能 够 通过 树 的 边 到 D, f^ 
后 再 由 一 条 背 向 边 回 到 A 。 我 们 可 以 通过 对 该 深度 优先 生成 树 执行 一 次 后 序 遍 历 有 效 地 算出 
Low。 根 据 Low 的 定义 可 知 Low( v) Ft 

1. Num (v) 

2. PARA CV, w) PRK Num(w) 

3. 树 的 所 有 边 (v，w) 中 的 最 低 Low(w) 

中 的 最 小 者 。 

第 一 个 条 件 是 不 选取 边 , 第 二 种 方法 是 不 选取 树 的 边 而 是 选取 一 条 背 向 边 , 第 三 种 方法 则 是 

选择 树 的 某 些 边 以 及 可 能 还 有 一 条 背 向 边 。 第 三 种 方法 可 用 一 个 递归 调用 简明 地 描述 。 由 于 我 








图 9-62 RAHA C 和 的 图 
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9.63 上 图 的 深度 优先 树 ， 节 点 标 有 Num Al Low 


们 需要 对 v 的 所 有 儿子 计算 出 Low 值 后 才能 计算 Low(v), 因此 这 是 一 个 后 序 遍 历 。 对 于 任 一 条 
Xl(v, w), 只 要 检查 Num (v) fl Num (tm ) 就 可 以 知道 它 是 树 的 一 条 边 还 是 一 条 背 向 边 。 因 此 ， 
Loru(v) 容 易 计 算 。 我 们 只 需 扫描 v 的 邻接 表 , 应 用 适当 的 法 则 , 并 记 住 最 小 者 。 所 有 的 计算 花 
费 OC EL - |1V|) 时 间 。 

剩 下 要 做 的 就 是 利用 这 些 信 息 找 出 所 有 的 割 点 。 根 是 割 点 当 且 仅 当 它 有 多 于 一 个 的 儿子 ， 
因为 如 果 它 有 两 个 儿子 , 那么 删除 根 则 使 得 不 同 子 树 上 的 节点 不 连通 ; 如 果 根 只 有 一 个 儿子 , 那 
么 除去 该 根 只 不 过 断 离 该 根 。 对 于 任何 其 他 顶点 v, 它 是 割 点 当 且 仅 当 它 有 某 个 儿子 w 使 得 
Lomw(w) 宇 Num(v)。 注 意 , 这 个 条 件 在 根 处 总 是 满足 的 ; 因此 , 需要 进行 特别 的 测试 。 

当 我 们 考查 算法 确定 的 割 点 , 即 C 和 DD 时 , 证 明 的 当 部 分 是 明显 的 。D 有 一 个 儿子 E, 且 
Low(E)Z:Num(D), 二 者 都 是 4。 因 此 , 对 EE 来 说 只 有 一 种 方法 到 达 DD 上面 的 任何 一 点 , 那 就 
是 要 通过 D。 类 似 地 , C 也 是 一 个 割 点 , 因为 Low(G) 宇 Num(C)。 为 了 证 明 该 算法 正确 , RN 
必须 证 明 论 断 的 仅 当 部 分 成 立 ( 即 , 它 找到 所 有 的 割 点 )。 我 们 把 它 留 作 一 道 练 习 。 作 为 第 二 个 
例子 , 我 们 指出 (图 9-64) 同 样 在 这 个 图 上 应 用 该 算法 在 顶点 C 开始 深度 优先 搜索 的 结果 。 





图 9-64 在 C 开始 深度 优先 搜索 所 得 到 的 深度 优先 树 


最 后 , 我 们 给 出 伪 代 码 实现 该 算法 。 设 Vertex 包含 数据 域 visited( 初 始 化 为 false), num, 
low 和 parent。 我 们 还 要 有 一 个 (Graph) 类 变量 叫做 counter, 为 给 先 序 遍 历 编号 num 赋值 ,将 
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counter 初始 化 为 1。 我 们 还 将 省 略 对 根 的 容易 实现 的 测试 。 

正如 我 们 已 经 提 到 的 , 该 算法 可 以 通过 执行 一 次 先 序 遍 历 计算 Num 而 后 一 趟 后 序 遍 历 计 算 
Low 来 实现 。 第 三 趟 遍历 可 以 用 来 检验 哪些 顶点 满足 割 点 的 标准 。 然 而 , 执行 三 趟 遍历 是 一 种 
浪费 。 第 一 趟 在 图 9-65 中 表 出 。 


// Assign Num and compute parents 
void assignNum( Vertex v ) 


( 


v.num = counter++; 
v.visited = true; 
for each Vertex w adjacent to v 


if( !w.visited ) 

{ 
w.parent = v; 
assignNum( w ); 





9.65 ”对 顶点 的 Num 赋值 的 例 程 ( 伪 代 码 ) 


第 二 趟 和 第 三 趟 遍历 , 它们 都 是 后 序 遍 历 , 可 以 通过 图 9-66 中 的 代码 来 实现 。 最 后 的 主语 
名 处理 一 个 特殊 的 情况 。 如 果 zw 邻接 到 ww, 那么 对 w 的 递归 调用 将 发 现 v 邻接 到 w。 这 不 是 一 
条 背 向 边 , 而 只 是 一 条 已 经 考虑 过 且 需 要 忽略 的 边 。 整 个 过 程 将 计算 出 各 low 和 num 项 的 最 小 
值 , 正如 算法 指定 的 那样 。 


// Assign low; also check for articulation points. 
void assignLow( Vertex v ) 
{ 

v.low = v.num; // Rule 1 

for each Vertex w adjacent to v 


if( w.num > v.num ) // Forward edge 


{ 


assignLow( w ); 


if( w.low >= v.num ) 
System.out.print]n( v + " is an articulation point" ); 
v.low = min( v.Tow, w.low ); // Rule 3 


else 
if( v.parent != w ) // Back edge 
v.low = min( v.low, w.num ); // Rule 2 





9-66 计算 Low 并 检验 是 否 割 点 的 伪 代 码 (忽略 对 根 的 检验 ) 


不 存在 一 个 遍历 必须 是 先 序 遍历 或 后 序 遍 历 的 法 则 。 在 递归 调用 前 和 递归 调用 后 都 有 可 能 
进行 处 理 。 图 9-67 中 的 过 程 以 一 种 直接 的 方式 将 两 个 例 程 assignNum 和 assignLow 结合 得 到 过 程 
findArt, 
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void findArt( Vertex v ) 

{ 
v.visited = true; 
v.low = v.num = counter++; // Rule 1 
for each Vertex w adjacent to v 


if( !w.visited ) // Forward edge 
{ 

w.parent = v; 

findArt( w ); 


if( w.low >= v.num ) 
System.out.println( v + " is an articulation point" ); 
v.low = min( v.low, w.low ); // Rule 3 


) 
else 
if( v.parent != w ) // Back edge 
v.low = min( v.low, w.num ); // Rule 2 





图 9-67 在 一 次 深度 优先 搜索 (忽略 对 根 的 测试 ) 中 对 割 点 的 检测 ( 伪 代 码 ) 


9.6.3 欧 拉 回 路 

考虑 图 9-68 中 的 三 个 图 。 一 个 流行 的 游戏 是 用 钢笔 重 画 这 些 图 , 每 条 线 恰 好 画 一 次 。 在 画 
图 的 时 候 钢 笔 不 要 从 纸 上 离 开 。 作 为 一 个 附加 的 问题 , 要 使 钢笔 在 开始 画图 时 的 起 点 上 结束 画 
图 。 该 游戏 有 一 个 非常 简单 的 解法 。 如 果 你 想 尝 试 求解 该 问题 , 那么 现在 就 可 以 停 下 来 试 一 试 。 

第 一 个 图 仅 当 起 点 在 左下 角 或 右 下 角 时 可 以 画 出 , 而 且 不 可 能 结束 在 起 点 处 。 第 二 个 图 容 
易 画 出 , 它 的 终止 点 和 起 点 相同 , 但 是 , 第 三 个 图 在 游戏 的 限制 条 件 下 根本 画 不 出 来 。 

我 们 可 以 通过 给 每 个 交点 指定 一 个 顶点 而 把 这 个 问题 转化 成 图 论 问 题 。 此 时 , 图 的 边 以 自 
然 的 方式 规定 , 如 图 9-69 所 示 。 


图 9-68 三 幅 图 形 图 9-69 将 游戏 转化 成 图 


将 问题 转化 之 后 , 我 们 必须 在 图 中 找 出 一 条 路 径 , 使 得 该 路 径 访 问 图 的 每 条 边 恰 好 一 次 。 如 
果 我 们 要 解决 附加 的 问题 ”, 那么 就 必须 找到 一 个 圈 , 该 圈 经 过 每 条 边 恰好 一 次 。 这 种 图 论 问题 
在 1736 年 由 欧 拉 解决 , 它 标志 着 图 论 的 诞生 。 根 据 特定 问题 的 叙述 不 同 , 这 种 问题 通常 叫做 欧 
拉 路 径 ( 有 时 称 欧 拉 环 游 Euler tour) 或 欧 拉 回 路 (Euler circuit) (AG, BARR HK El 
路 问题 稍 有 不 同 , 但 是 却 有 相同 的 基本 解法 。 因 此 , 在 这 一 节 我 们 将 考虑 欧 拉 回 路 问题 。 

能 够 做 的 第 一 个 观察 是 , 其 终点 必须 终止 在 起 点 上 的 欧 拉 回路 只 有 当 图 是 连通 的 并 且 每 个 
顶点 的 度 ( 即 , 边 的 条 数 ) 是 偶数 时 才 有 可 能 存在 。 这 是 因为 , 在 欧 拉 回路 中 , 一 个 顶点 有 边 进 
A, 则 必然 有 边 离开 。 如 果 任 一 顶点 v 的 度 为 奇数 , 那么 实际 上 我 们 早晚 将 会 达到 该 点 , 即 只 有 
一 条 进入 v 的 边 尚未 访问 到 , 若 沿 该 边 进入 v A, 那么 我 们 只 能 停 在 顶点 v, 不 可 能 再 出 来 。 如 
果 恰 好 有 两 个 顶点 的 度 是 奇数 , 那么 当 我 们 从 一 个 奇数 度 的 顶点 出 发 最 后 终止 在 另 一 个 奇数 度 
的 顶点 时 , 仍然 有 可 能 得 到 一 个 欧 拉 环 游 。 这 里 , 欧 拉 环 游 是 必须 访问 图 的 每 一 边 但 最 后 不 一 定 
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必须 回 到 起 点 的 路 径 。 如 果 奇 数 度 的 顶点 多 于 两 个 , 那么 欧 拉 环 游 也 是 不 可 能 存在 的 。 

上 一 段 的 观察 给 我 们 提供 了 欧 拉 回路 存在 的 一 个 必要 条 件 。 不 过 , 它 并 未 告诉 我 们 满足 该 
性 质 的 所 有 的 连通 图 是 否 必然 有 一 个 欧 拉 回路 , 也 没有 给 我 们 如 何 找 出 欧 拉 回路 的 具体 指导 。 
事实 上 , 这 个 必要 条 件 也 是 充分 的 。 就 是 说 , 所 有 顶点 的 度 均 为 偶数 的 任何 连通 图 必然 有 欧 拉 回 
路 。 不 仅 如 此 , 我 们 还 可 以 以 线性 时 间 找 出 这 样 一 条 回路 。 

由 于 我 们 可 以 用 线性 时 间 检 测 这 个 充分 必要 条 件 , 因此 可 以 假设 我 们 知道 存在 一 条 欧 拉 回 
路 。 此 时 , 基本 算法 就 是 执行 一 次 深度 优先 搜索 。 有 大 量 " 明 显 的 "解决 方案 但 是 却 都 行 不 通 , 我 
们 罗列 了 一 些 在 练习 中 。 

主要 问题 在 于 , 我 们 可 能 只 访问 了 图 的 一 部 分 而 提前 返回 到 起 点 。 如 果 从 起 点 出 发 的 所 有 
边 均 已 用 完 ,那么 图 中 就 会 有 的 部 分 遍历 不 到 。 最 容易 的 补救 方法 是 找 出 含有 尚未 访问 的 边 的 
路 径 上 的 第 一 个 顶点 , 并 执行 另外 一 次 深度 优先 搜索 。 这 将 给 出 另外 一 个 回路 , 把 它 拼接 到 原来 
的 回路 上 。 继 续 该 过 程 直 到 所 有 的 边 都 被 遍历 到 为 止 。 

作为 一 个 例子 ,考虑 图 9-70 中 的 图 。 容 易 看 出 , 这 个 图 有 一 个 欧 拉 回路 。 设 从 顶点 5 开始 ， 
我 们 遍历 5,4,10,5, 此 时 我 们 已 无 路 可 走 , 图 的 大 部 分 都 还 未 遍历 到 。 情 况 如 图 9-71 所 示 。 





9-71 在 访问 5,4,10,5 后 剩 下 的 图 


此 时 , 我 们 从 顶点 4 继续 进行 , 它 仍然 还 有 没 用 到 的 边 。 结 果 , 又 得 到 路 径 4,1,3,7,4,11, 
10,7,9,3,4。 如 果 我 们 把 这 条 路 径 拼 接 到 前 面 的 路 径 5,4,10,5 E, 那么 就 得 到 一 条 新 的 路 径 5, 
4,1,3,7,4,11,10,7,9,3,4,10,5. 

此 后 , 剩 下 的 图 在 图 9-72 中 表示 。 注 意 , 在 这 个 图 中 , 所 有 的 顶点 的 度 必然 都 是 偶数 ， 因 
此 , 我 们 保证 能 够 找到 一 个 圈 再 拼接 上 。 剩 下 的 图 可 能 不 是 连通 的 , 但 这 并 不 重要 。 路 径 上 存 有 
未 被 访问 的 边 的 下 一 个 顶点 是 3。 此 时 可 能 的 回路 可 以 是 3,2,8,9,6,3。 当 拼接 进来 之 后 , 我 们 
得 到 路 径 5,4,1,3,2,8,9,6,3,7,4,11,10,7,9,3,4,10,5。 





图 9-72 在 路 径 5,4,1,3,7,4,11,10,7,9,3,4,10,5 之 后 剩 下 的 图 
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剩 下 的 图 在 图 9-73 中 。 在 该 路 径 上 , 带 有 未 遍历 边 的 下 一 个 项 点 是 9, 算法 找到 回路 9,12, 
10,9。 当 把 它 拼接 到 当前 路 径 中 时 , 我 们 得 到 回路 5,4,1,3,2,8,9,12,10,9,6,3,7,4,11,10,7， 
9,3,4,10,5。 当 所 有 的 边 都 被 遍历 时 , 算法 终止 , 我 们 得 到 一 个 欧 拉 回 路 。 


o 
© © 
o 9 o s © 
(12) 


为 使 算法 更 有 效 , 必须 使 用 适当 的 数据 结构 。 我 们 将 概述 想法 而 把 实现 方法 留 作 练习 。 为 
使 拼接 简单 , 应 该 把 路 径 作 为 一 个 链表 保留 。 为 避免 重复 扫描 邻接 表 , 对 于 每 一 个 邻接 表 我 们 都 
必须 保留 最 后 扫描 到 的 边 。 当 拼接 进 一 个 路 径 时 , 必须 从 拼接 点 开始 搜索 新 顶点 ,从 这 个 新 顶点 
进行 下 一 轮 深度 优先 搜索 。 这 将 保证 在 整个 算法 期 间 对 顶点 搜索 阶段 所 进行 的 全 部 工作 量 为 
O(\E|). 使 用 适当 的 数据 结构 , 算法 的 运行 时 间 为 OCLEL |V|)。 

一 个 非常 相似 的 问题 是 在 无 向 图 中 寻找 一 个 简单 的 圈 ,， 该 图 通过 图 的 每 一 个 顶点 。 这 个 问 
题 称 为 哈密 尔 顿 圈 问 题 (Hamiltonian cycle problem)。 虽 然 看 起 来 这 个 问题 似乎 差不多 和 欧 拉 回路 
问题 一 样 , BE, 对 它 却 没有 已 知 的 有 效 算 法 。 我 们 将 在 9.7 节 中 再 次 遇 到 这 个 问题 。 
9.6.4 有 向 图 

利用 与 无 向 图 相同 的 思路 , 也 可 以 通过 深度 优先 搜索 以 线性 时 间 遍 历 有 向 图 。 如 果 图 不 是 强 
连通 的 , 那么 从 某 个 节点 开始 的 深度 优先 搜索 可 能 访问 不 
了 所 有 的 节点 。 在 这 种 情况 下 我 们 在 某 个 未 作 标 记 的 节点 
处 开始 , 反复 执行 深度 优先 搜索 , 直到 所 有 的 节点 都 被 访 
问 到 。 作 为 例子 , 考虑 图 9-74 中 的 有 向 图 。 

我 们 在 顶点 B 任意 开始 深度 优先 搜索 。 它 访问 顶点 
B, C, A, D, E 和 下。 然后 , 在 某 个 未 访问 的 顶点 再 重新 
开始 。 任 意 地 , Æ H FR, WAI Al. Ra, EGA 
始 , 它 是 最 后 一 个 需要 访问 的 顶点 。 对 应 的 深度 优先 搜索 
树 如 图 9-75 中 所 示 。 












图 9-75 前面 的 图 的 深度 优先 搜索 


| 深度 优先 生成 森林 中 虚线 箭头 是 一 些 (w, wH, 其 中 的 w 在 考查 时 已 经 做 了 标记 。 在 无 向 
图 中 , 它们 总 是 一 些 背 向 边 , 但 是 我 们 可 以 看 到 , 存在 三 种 类 型 的 边 并 不 通 向 新 的 顶点 。 首 先是 
一 些 背 向 边 如 (4 ,B) 和 (T, 互 )。 还 有 一 些 前 向 边 (forward edge) 如 (C,DD) 和 (C,E), 它们 从 树 的 
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一 个 节点 通 向 一 个 后 裔 。 最 后 就 是 一 些 交 叉 边 (cross edge), M(F,C)M(G,F), 它们 把 不 直接 相 
关 的 两 个 树 节点 连接 起 来 。 深 度 优先 搜索 森林 一 般 通过 把 一 些 子 节点 和 一 些 添加 到 森林 中 的 新 
的 树 从 左 到 右 画 出 。 在 以 这 种 方式 画 出 的 有 向 图 的 深度 优先 搜索 中 , 交叉 边 总 是 从 右 到 左 行 
进 的 。 

有 些 使 用 深度 优先 搜索 的 算法 需要 区 别 三 种 类 型 的 非 树 边 。 当 进行 深度 优先 搜索 时 这 是 容 
易 检 验 的 , 我 们 把 它 留 作 一 道 练 习 。 

深度 优先 搜索 的 一 种 用 途 是 检测 一 个 有 向 图 是 否 是 无 圈 图 , 法 则 如 下 : 一 个 有 向 图 是 无 图 
图 , 当 且 仅 当 它 没有 背 向 边 。( 上 面 的 图 月 向 边 , 因此 它 不 是 无 圈 图 。) 读 者 可 能 还 记得 , 拓扑 排 
序 也 可 以 用 来 确定 一 个 图 是 否 是 无 圈 图 。 进 行 拓扑 排序 的 另 一 种 方法 是 通过 深度 优先 生成 森林 
的 后 序 遍 历 给 顶点 指定 拓扑 编号 N，N -1,…,1。 只 要 图 是 无 图 的 , 这 种 排序 就 是 一 致 的 。 
9.6.5 查找 强 分 支 

通过 执行 两 次 深度 优先 搜索 , 我 们 可 以 测试 一 个 有 向 图 是 否 是 强 连 通 的 ,如 果 它 不 是 强 连 通 
的 , 那么 我 们 实际 上 可 以 得 到 顶点 的 一 些 子 集 , 它们 到 其 自身 是 强 连 通 的 。 这 也 可 以 只 用 一 次 深 
度 优 先 搜索 实现 , 不 过 , 此 处 所 使 用 的 方法 理解 起 来 要 简单 得 多 。 

首先 , 在 一 个 输入 的 图 G 上 执行 一 次 深度 优先 搜索 。 通 过 对 深度 优先 生成 森林 的 后 序 遍 有 历 将 
G 的 顶点 编号 , 然后 再 把 G 的 所 有 的 边 反 向 , 形成 
G,。 图 9-76 中 的 图 代表 图 9-74 所 示 的 图 G 的 G,; 
顶点 用 它们 的 编号 表 出 。 

该 算法 通过 对 G, 执行 一 次 深度 优先 搜索 而 完 
成 , 总 是 在 编号 最 高 的 顶点 开始 一 次 新 的 深度 优先 
搜索 。 于 是 , 在 顶点 G 开始 对 G, 的 深度 优先 搜索 ， 
G 的 编号 为 0。 但 该 项 点 不 通 向 任何 顶点 , 因此 下 
一 次 搜索 在 H 点 开始 。 这 次 调用 访问 了 和 J。 下 一 
次 调用 在 B 点 开始 并 访问 A 、C 和 下 。 此 后 的 调用 是 
dfs(D) 及 最 终 调用 dfs(E)。 结 果 得 到 的 深度 优先 生 ”图 9-76 通过 对 图 9-74 中 的 图 G 的 
成 森林 如 图 9-77 中 所 示 。 后 序 遍 历 所 编号 的 G， 





— 
ma 
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图 9-77 G, 的 深度 优先 搜索 一 一 强 分 支 为 1Gj ,1H,1,J| ,1B,A,C,F|,{D!i ,|E} 


在 该 深度 优先 生成 森林 中 的 每 棵 树 ( 如 果 完 全 忽略 所 有 的 非 树 边 , 那么 这 会 更 容易 看 出 ) 形 
成 一 个 强 连 通 的 分 支 。 因 此 , 对 于 我 们 的 例子 , 这 些 强 连通 分 支 为 1G1 LIH, T,J1, 1B, A, C, 
F|, {DIME}. 

为 了 理解 该 算法 为 什么 成 立 , 首先 注意 到 , 如果 两 个 顶点 v Aw 都 在 同一 个 强 连通 分 支 中 ， 
那么 在 原 图 G 中 就 存在 从 wv 到 ww 的 路 径 和 从 w 到 ww 的 路 径 , 因此 , TE G, 中 也 存在 。 现 在 , 如 果 
两 个 顶点 o Mw PEG, 的 同一 个 深度 优先 生成 树 中 , 那么 显然 它们 也 不 可 能 在 同一 个 强 连通 分 
支 中 。 
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为 了 证 明 该 算法 成 立 , 我 们 必须 指出 ,如 果 两 个 顶点 v Aw EG, 的 同一 个 深度 优先 生成 树 
中 , 那么 必然 存在 从 v X] w 的 路 径 和 从 w 到 w 的 路 径 。 等 价 地 , 我 们 可 以 证 明 , WR x EG, £2 
S v 的 深度 优先 生成 树 的 根 , 那么 存在 一 条 从 zx o 和 从 vw Bo 的 路 径 。 对 zw 应 用 相同 的 推理 
则 得 到 一 条 从 z Bw MA w 到 xz 的 路 径 。 这 些 路 径 意 味 着 那些 从 v 到 w Aw 到 w{( 经 过 z) 的 
路 径 。 

由 于 v 是 zx 在 G, 的 深度 优先 生成 树 中 的 一 个 后 裔 , 因此 存在 G, 中 一 条 从 xz Blo 的 路 径 , 从 
而 存在 G 中 一 条 从 vv 到 rz 的 路 径 。 此 外 , 由 于 zx 是 根 节点 , 因此 x 从 第 一 次 深度 优先 搜索 得 到 
更 高 的 后 序 编号 。 于 是 , 在 第 一 次 深度 优先 搜索 期 间 所 有 处 理 v 的 工作 都 在 x 的 工作 结束 前 完 
成 。 既 然 存 在 一 条 从 v Plr 的 路 径 , 因此 o 必然 是 z EG 的 生成 树 中 的 一 个 后 裔 一 一 否则 v 将 
在 zx 之 后 结束 。 这 意味 着 G 中 从 xz 到 v 有 一 条 路 径 , 证 明 完 成 。 


9.7 NP- 完全 性 介绍 


在 这 一 章 , 我 们 已 经 看 到 各 种 各 样 图 论 问题 的 解法 。 所 有 这 些 问题 都 有 一 个 多 项 式 运行 时 
E, 除 网 络 流 问 题 外 , 运行 时 间或 者 是 线性 的 , 或 者 稍微 比 线性 多 一 些 (O(|1E|log|E|))。 顺 便 
指出 , 我 们 还 提 到 , 对 于 某 些 问题 , 有 些 变化 似乎 比 原 问题 要 困难 。 

回忆 欧 拉 回路 问题 , 它 要 求 找 出 一 条 经 过 图 的 每 条 边 恰好 一 次 的 路 径 , 该 问题 是 线性 时 间 可 
解 的 。 险 密 尔 顿 圈 问题 要 找 一 个 简单 圈 , 该 圈 包 含 图 的 每 一 个 顶点 。 对 于 这 个 问题 ， 尚 未 发 现 有 
线性 算法 。 

对 于 有 向 图 的 单 源 无 权 最 短路 径 问 题 也 是 线性 时 间 可 和 解 的 。 但 对 应 的 最 长 简单 路 径 问 题 
(longest-simple-path) 尚 不 知 有 线性 时 间 算 法 。 

这 些 问题 的 变化 , 其 情况 实际 上 比 我 们 描述 的 还 要 糟 。 对 于 这 些 变 种 问题 不 仅 不 知道 线性 
算法 , 而 且 不 存在 保证 以 多 项 式 时 间 运 行 的 已 知 算法 。 这 些 问题 的 一 些 熟 知 算法 对 于 某 些 输入 
可 能 要 花费 指数 时 间 。 

在 这 一 节 , 我 们 将 简要 考查 这 种 问题 , 它们 是 相当 复杂 的 ,因此 我 们 将 只 进行 快速 和 非 正式 
的 探讨 。 这 样 一 来 , 我 们 的 讨论 可 能 (必然 地 ) 在 一 些 地 方 或 多 或 少 地 有 些 不 准确 的 缺憾 。 

我 们 将 看 到 , 存在 大 量 重要 的 问题 , 它们 在 复杂 性 上 大 体 是 等 价 的 。 这 些 问题 形成 一 个 类 ， 
叫做 NP- 完 全 (NP-complete) 问 题 。 这 些 NP- 完 全 问题 精确 的 复杂 度 仍然 需要 确定 并 且 在 计算 机 
理论 科学 方面 仍然 是 最 重要 的 开放 性 问题 。 或 者 所 有 这 些 问题 都 有 和 多项式 时 间 解 法 , 或 者 它们 
都 没有 多 项 式 时 间 解 法 。 

9.7.1 难 与 易 

在 给 问题 分 类 时 , 第 一 步 要 考虑 的 是 分 界 。 我 们 已 经 看 到 , 许多 问题 可 以 用 线性 时 间 求 解 。 
我 们 还 看 到 某 些 O(logN) 的 运行 时 间 , 但 是 它们 或 者 假定 已 做 了 某 些 预 处 理 (如 输入 数据 已 读 人 
或 数据 结构 已 建立 ), 或 者 出 现在 运算 实例 中 。 例 如 , gcd( 最 高 公 因数 ) 算 法 ， 当 用 于 两 个 数 M 和 
NEY, 花费 O(logN) 时 间 。 由 于 这 两 个 数 分 别 由 logM 和 logN 个 二 进 制 位 组 成 ,因此 gcd 算法 
实际 上 花费 的 时 间 对 于 输入 数据 的 量 或 大 小 而 言 是 线性 的 。 由 此 可 知 ， 当 我 们 度量 运行 时 间 时 ， 
我 们 将 把 运行 时 间 考 虑 成 输入 数据 的 量 的 函数 。 一 般 说 来 , 我 们 不 能 期 望 运 行 时 间 比 线性 更 好 。 

另 一 方面 , 确实 存在 某 些 真 正 难 的 问题 。 这 些 问题 是 如 此 的 难 , 以 至 于 它们 不 可 能 解 出 。 但 
这 并 不 意味 着 通常 的 那 种 忆 恼 叹息 ,期 待 着 天 才 来 求解 该 问题 。 正 如 实数 不 足以 表示 zx*<0 的 
解 那样 , 可 以 证 明 , 计算 机 不 可 能 解决 碰巧 发 生 的 每 一 个 问题 。 这 些 “ 不 可 能 "解决 的 问题 叫做 不 
可 判定 问题 (undecidable problem)。 

一 个 特殊 的 不 可 判定 问题 是 停机 问题 (halting problem)。 是 否 能 够 使 Java 编译 器 拥有 一 个 附 
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加 的 特性 , 即 不 仅 能 够 检查 语法 错误 ,而 且 还 能 够 检查 所 有 的 无 限 循环 ? 这 似乎 是 一 个 难 的 问 
mi, 但 是 我 们 或 许 期 望 , 假如 某 些 非常 聪明 的 程序 员 花 上 足够 的 时 间 , 他 们 也 许 能 够 编制 出 这 种 
增强 型 的 编译 器 。 

该 问题 是 不 可 判定 的 的 直观 原因 在 于 , 这 样 一 个 程序 可 能 很 难 检查 它 自己 。 由 于 这 个 原因 ， 
有 时 这 些 问题 叫做 是 递归 不 可 判定 的 (recursively undecidable)。 

假如 一 个 无 限 循环 检查 程序 能 够 写 出 , 那么 它 肯定 可 以 用 于 自 检 。 假设 此 时 我 们 可 以 编写 
出 一 个 程序 叫做 LOOP. LOOP 把 一 个 程序 P 作为 输入 并 使 P 自身 运行 。 如 果 P 自身 运行 时 出 
现 循环 , 则 显示 短语 YES。 如 果 已 自身 运行 时 终止 了 , 那么 自然 要 做 的 事 是 显示 NO。 现 在 , 我 
们 不 这 么 做 , 而 是 让 LOOP 进入 一 个 无 限 循环 。 

当 LOOP 将 自身 作为 输入 时 会 发 生 什么 呢 ? 或 者 LOOP fib, 或 者 不 停止 。 问 题 在 于 , 这 
两 种 可 能 性 均 导 致 蔬 盾 , 与 短语 “本 名 话 是 谎言 "产生 的 矛盾 大 致 相同 。 

根据 我 们 的 定义 , 如 果 P(P) 终 止 , W LOOP(P) 进 入 一 个 无 限 循环 。 设 当 P = LOOP 时 ， 
P(P) 终 止 。 此 时 , 按照 LOOP 程序 ，LOOP(P) 应 该 进入 一 个 无 限 循环 。 因 此 , 我 们 必须 让 
LOOP(LOOP) 终 止 并 进入 一 个 无 限 循环 ,显然 这 是 不 可 能 的 。 另 一 方面 , 设 当 P = LOOP 时 
P(P) 进入 一 个 无 限 循 环 , 则 LOOP(P) 必 然 终止 ， 而 我 们 得 到 同样 的 一 组 矛盾 。 因 此 , 我 们 看 
£j, 程序 LOOP 不 可 能 存在 。 
9.7.2 NP 类 

NP 类 是 在 难度 上 撑 于 不 可 判定 问题 的 类 。NP 代表 非 确 定型 多 项 式 时 间 (nondeterministic 
polynomial-time)。 确 定型 机 器 在 每 一 时 刻 都 在 执行 一 条 指令 。 根 据 这 条 指令 , 机 器 再 去 执行 某 条 
接 下 来 的 指令 , 这 是 唯一 确定 的 。 而 一 台 非 确定 型 机 器 对 其 后 的 步骤 是 有 选择 的 。 它 可 以 自由 
进行 它 想 要 的 任意 的 选择 , 如 果 这 些 后 面 的 步骤 中 有 一 条 导致 问题 的 解 , 那么 它 将 总 是 选择 这 个 
正确 的 步骤 。 因 此 , 非 确定 型 机 器 具有 非常 好 的 猜测 (优化 ) 能 力 。 这 好 像 一 台 奇 怪 的 模型 , 因为 
没有 人 能 够 构建 一 台 非 确定 型 计算 机 , 还 因为 这 台 机 器 是 对 标准 计算 机 的 令 人 难以 置信 的 改进 
(此 时 每 一 个 向 题 都 变 成 易 解 的 了 )。 我 们 将 看 到 , 非 确 定性 是 非常 有 用 的 理论 结构 。 此 外 , TER 
定性 也 不 像 人 们 想象 的 那么 强大 。 例 如 , 即使 使 用 非 确定 性 , 不 可 判定 问题 仍然 还 是 不 可 判 
定 的 。 

检验 一 个 问题 是 否 属于 NP 的 简单 方法 是 将 该 问题 用 “是 / 否 (yes/no) 问 题 "的 语言 描述 。 如 
果 我 们 在 多 项 式 时 间 内 能 够 证 明 一 个 问题 的 任意 “是 "的 实例 是 正确 的 , 那么 该 问题 就 属于 NP 
类 。 我 们 不 必 担 心 “ 否 "的 实例 , 因为 程序 总 是 进行 正确 的 选择 。 因 此 , 对 于 哈密 尔 顿 图 问题 , 一 
个 “是 "的 实例 就 是 图 中 任意 一 个 包含 所 有 顶点 的 简单 的 回路 。 由 于 给 定 一 条 路 径 , 验证 它 是 否 
真 的 是 哈密 尔 顿 圈 是 一 件 简 单 的 事情 , 因此 哈密 尔 顿 圈 问 题 属于 NP。 诸 如 “存在 长 度 大 于 KK 的 
简单 路 径 吗 ?" 这 样 的 适当 的 问题 也 可 能 容易 验证 从 而 属于 NP。 满 足 这 条 性 质 的 任何 路 径 均 可 容 
V) HE S 

由 于 解 本 身 显然 提供 了 验证 方法 , 因此 , NP 类 包括 所 有 具有 多 项 式 时 间 解 的 问题 。 人 们 会 
想到 , 既然 验证 一 个 答案 要 比 经 过 计算 提出 一 个 答案 容易 的 多 , 因此 在 NP 中 就 会 存在 不 具有 多 
项 式 时 间 解 法 的 问题 。 这 样 的 问题 至 今 没有 发 现 , 于 是 , 完全 有 可 能 非 确定 性 并 不 是 如 此 重要 的 
改进 , 尽管 有 些 专家 很 可 能 不 这 么 认为 。 问 题 在 于 , 证 明 指 数 下 界 是 一 项 极其 困难 的 工作 。 我 们 
曾 用 来 证 明 排 序 需要 NA NlogN) 次 比较 的 信息 理论 定 界 方法 似乎 还 不 足以 完成 这 样 的 工作 ， 因 
为 决策 树 都 远 不 够 大 。 

还 要 注意 , 不 是 所 有 的 可 判定 问题 都 属于 NP。 考 虑 确定 一 个 图 是 否 没 有 哈密 尔 顿 圈 的 问 
题 。 证 明 一 个 图 有 哈密 尔 顿 图 是 相对 简单 的 一 件 事情 一 一 我 们 只 需 展 示 一 个 即 可 。 然 而 却 没 有 
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人 知道 如 何以 多 项 式 时 间 证 明 一 个 图 没有 哈密 尔 顿 图 。 似 乎 人 们 只 能 枚 举 所 有 的 圈 并 且 将 它们 
一 个 一 个 地 验证 才 行 。 因 此 , 无 哈密 尔 顿 图 的 问题 不 知 属于 不 属于 NP。 
9.7.3 ”NP- 完 全 问题 

在 已 知 属于 NP 的 所 有 问题 中 , 存在 一 个 子 集 , 叫做 NP- 完 全 (NP-complete) 问 题 , 它 包 含 了 
NP 中 最 难 的 问题 。NP- 完 全 问题 有 一 个 性 质 , 即 NP 中 的 任 一 问题 都 能 够 以 多 项 式 时 间 归 约 成 
NP- 完 全 问题 。 

问题 P, 可 以 归 约 成 问题 P; 如 下 : 设 有 一 个 映射 , 使 得 P, 的 任何 实例 都 可 以 变换 成 P 的 
一 个 实例 。 求 解 P,, 然后 将 答案 映射 回 原始 的 解答 。 作 为 一 个 例子 , 考虑 把 数 以 十 进 制 输入 到 
一 只 计算 器 。 将 这 些 十 进 制 数 转化 成 二 进 制 数 , 所 有 的 计算 都 用 二 进 制 进行 。 然 后 , 再 把 最 后 答 
案 转变 成 十 进 制 显示 。 对 于 可 多 项 式 地 归 约 成 P, 的 Pl, 与 变换 相 联系 的 所 有 的 工作 必须 以 多 项 
式 时 间 完 成 。 

NP- 完 全 问题 是 最 难 的 NP 问题 的 原因 在 于 , 一 个 NP- 完 全 的 问题 基本 上 可 以 用 作 NP 中 任何 
问题 的 子 例 程 , 其 花费 只 不 过 是 多 项 式 的 开销 量 。 因 此 , 如 果 任 意 NP- 完 全 问题 有 一 个 多 项 式 时 
间 解 , 那么 NP 中 的 每 一 个 问题 必然 都 有 一 个 多 项 式 时 间 的 解 。 这 使 得 NP- 完 全 问题 是 所 有 NP 
问题 中 最 难 的 问题 。 

设 我 们 有 一 个 NP- 完 全 问题 P,, 并 设 P, 已 知 属于 NP。 再 进一步 假设 P 多 项 式 地 归 约 成 
P,, 使 得 我 们 可 以 通过 使 用 P, 求解 P, 只 多 损耗 了 多 项 式 时 间 。 由 于 Pi 是 NP- 完 全 的 , NP 中 的 
每 一 个 问题 都 可 多 项 式 地 归 约 成 P|。 应 用 多 项 式 的 封闭 性 , 我 们 看 到 ,NP 中 的 每 一 个 问题 均 可 
多 项 式 地 归 约 成 Po: 我 们 把 问题 归 约 成 P, , 然后 再 把 P, 归 约 成 P5. Alt, P; 是 NP 完全 的 。 

作为 一 个 例子 , 设 我 们 已 经 知道 哈密 尔 顿 圈 问 题 是 NP- 完 全 问题 。 巡 同 售货员 问题 (traveling 
salesman problem) 表 述 如 下 。 
巡回 售货员 问题 | 

给 定 一 完全 图 G=(V,E), 它 的 边 的 值 以 及 整数 K, 是 否 存在 一 个 访问 所 有 顶点 并 且 总 值 
小 于 或 等 于 K 的 简单 圈 ? 

这 个 问题 不 同 于 哈密 尔 顿 圈 问题 , 因为 全 部 |V1(| V1 一 1) 人 2 条 边 都 存在 而 且 图 是 赋 权 图 。 
该 问题 有 很 多 重要 的 应 用 。 例 如 ,印刷 电路 板 需要 穿 一 些 孔 使 得 芯片 、 电 阻 器 以 及 其 他 的 电子 元 
件 可 以 置 人 。 这 是 可 以 机 械 完成 的 。 穿 孔 是 快速 的 操作 ; 时 间 耗 费 在 给 穿孔 器 定位 上 。 定 位 所 
需要 的 时 间 依 赖 于 从 孔 到 孔 间 行进 的 距离 。 由 于 我 们 希望 给 每 一 个 孔 位 穿孔 (然后 返回 到 开始 位 
置 以便 给 下 一 块 电路 板 穿孔 ), 并 将 钻头 移动 所 耗费 的 总 时 间 限 制 到 最 小 , 因此 我 们 得 到 的 是 一 
个 巡回 售货员 问题 。 

巡回 售货员 问题 是 NP- 完 全 的 。 容 易 看 到 ,其 解 可 以 用 多 项 式 时 间 检 验 ， 当 然 它 属于 NP. 
为 了 证 明 它 是 NP- 完 全 的 , 我 们 可 多 项 式 地 将 哈密 尔 顿 圈 问 题 归 约 为 巡 何 售货员 问题 。 为 此 , 构 
造 一 个 新 的 图 G',G "和 G 有 相同 的 顶点 。 对 于 G ' 的 每 一 条 边 (v,tw)， MR(v.w)EG, 那么 
它 就 有 权 1, AW, 它 的 权 就 是 2。 我 们 选取 K = | V|。 见 图 9-78。 

容易 验证 ，G 有 一 个 哈密 尔 顿 圈 当 且 仅 当 G 有 一 个 总 权 为 | V1 的 巡回 售货员 的 巡回 路 线 。 

现在 有 许多 问题 已 知 是 NP- 完 全 问题 。 为 了 证 明 某 个 新 问题 是 NP- 完 全 的 ， 必 须 证 明 它 属于 
NP, 然后 将 一 个 适当 的 NP- 完 全 问题 变换 到 该 问题 。 虽 然 到 巡回 售货员 问题 的 变换 是 相当 简单 
的 , 但 是 , 大 部 分 变换 实际 上 却 是 相当 复杂 的 , 需要 某 些 复 杂 的 构造 。 一 般 说 , 在 考虑 了 多 个 不 
AY NP- 完 全 问题 之 后 才 考 虑 实际 提供 约 化 的 问题 。 由 于 我 们 只 关注 一 般 的 想法 , 因此 也 就 不 再 
讨论 更 多 的 变换 ; 有 兴趣 的 读者 可 以 查阅 本 章 后 面 的 参考 文献 。 

细心 的 读者 可 能 想 知 道 第 一 个 NP- 完 全 问题 是 如 何 具 体 地 被 证 明 是 NP- 完 全 的 。 由 于 证 明 一 
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图 9-78 ”哈密 尔 顿 图 问题 变换 成 巡回 售货员 问题 


个 问题 是 NP- 完 全 的 需要 从 另外 一 个 NP- 完 全 问题 变换 到 它 , 因此 必然 存在 某 个 NP- 完 全 问题 ， 
对 于 这 个 问题 不 能 使 用 上 述 的 思路 。 第 一 个 被 证 明 是 NP- 完 全 的 问题 是 可 满足 性 (satisfiability ) [8] 
题 。 这 个 可 满足 性 问题 把 一 个 布尔 表达 式 作 为 输入 并 提问 是 否 该 表达 式 对 式 中 各 变量 的 一 次 赋 
值 取 值 true。 

可 满足 性 当然 属于 NP, 因为 容易 计算 一 个 布尔 表达 式 的 值 并 检查 结果 是 否 为 真 (true)。 TE 
1971 年 ，Cook 通过 直接 证 明 NP 中 的 所 有 问题 都 可 以 变换 成 可 满足 性 问题 而 证 明了 可 满足 性 问 
题 是 NP- 完 全 的 。 为 此 , 他 用 到 了 对 NP 中 每 一 个 问题 都 已 知 的 事实 ; NP 中 的 每 一 个 问题 都 可 以 
用 一 台 非 确定 型 计算 机 在 多 项 式 时 间 内 求解 。 计 算 机 的 这 种 形式 化 的 模型 称 做 图 灵机 (Turing 
machine). Cook 指出 这 台 机 器 的 动作 如 何 能 够 用 一 个 极其 复杂 但 仍然 是 多 项 式 的 元 长 的 布尔 公 
式 来 模拟 。 该 布尔 公式 为 真 ， 当 且 仅 当 在 由 图 灵机 运行 的 程序 对 其 输入 得 到 一 个 “是 "的 答案 。 

一 旦 可 满足 性 被 证 明 是 NP- 完 全 的 , 则 一 大 批 新 的 NP- 完 全 问题 , 包括 某 些 最 经 典 的 问题 ， 
也 都 被 证 明 是 NP- 完 全 的 。 

除了 我 们 已 经 讨论 过 的 可 满足 性 问题 、 哈 密 尔 顿 回路 问题 、 巡 回 售货员 问题 、 最 长 路 径 问题 , 还 
有 一 些 我 们 尚未 讨论 的 更 为 著名 的 NP- 完 全 问题 , 它们 是 装 箱 (bin packing) 问题 、 背 包 (knapsack) [i] 
题 、 图 的 着 色 (graph coloring) 问题 以 及 团 (dique) 的 问题 等 。 这 些 NP- 完 全 问题 相当 广泛 , 包括 来 自 
操作 系统 (调度 与 安全 ) 、 数 据 库 系统 、 运 筹 学 、 逻 辑 学 , 特别 是 图 论 等 不 同 的 领域 的 问题 。 


小 结 


在 这 一 章 , 我 们 已 经 看 到 图 如 何 用 来 对 许多 实际 生活 问题 给 出 模型 。 许 多 实际 出 现 的 图 常 
Fe RSF ft LAY, 因此 , 注意 用 于 实现 这 些 图 的 数据 结构 很 重要 。 
我 们 还 看 到 一 类 问题 , 它们 似乎 没有 有 效 的 解法 。 在 第 10 章 将 讨论 处 理 这 些 问题 的 某 些 方法 。 


练习 
9.1 ” 找 出 图 9-79 中 图 的 一 个 拓扑 排序 。 












图 9-79 练习 9.1 和 9.11 中 使 用 的 图 
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9.2 


9.3 
9.4 


9.5 


9.6 
9.7 


BOF 


如 果 用 一 个 栈 代 替 9.2 节 中 拓扑 排序 算法 的 队列 , 是 否 得 到 不 同 的 排序 ? 为 什么 一 种 数 
据 结 构 会 给 出 “更 好 "的 答案 ? 

编写 一 个 对 一 个 图 执行 拓扑 排序 的 程序 。 

使 用 标准 的 二 重 循环 , 一 个 邻接 矩阵 仅仅 初始 化 就 需要 O(|1 V1*)。 试 提出 一 种 方法 将 
一 个 图 存储 在 一 个 邻接 矩阵 中 (使 得 测试 一 条 边 是 否 存在 花费 O(1)) 时 间 但 避免 二 次 的 
运行 时 间 。 

a. 找 出 图 9-80 中 图 的 A 点 到 所 有 其 他 顶点 的 最 短路 径 。 

b. 找 出 图 9-80 中 图 的 B 点 到 所 有 其 他 顶点 的 最 短 无 权 路 径 。 





图 9-80 练习 9.5 使 用 的 图 


当 用 d- 堆 实现 时 ( 见 6.5 47), Dijkstra 算法 最 坏 情 形 的 运行 时 间 是 多 少 ? 
a. 给 出 在 有 一 条 负 边 但 无 负 值 圈 时 Dijkstra 算法 得 到 错误 答案 的 例子 。 


"b. WH, 如 果 存 在 负 权 边 但 无 负 值 圈 , 则 9.3.3 节 中 提出 的 赋 权 最 短路 径 算法 是 成 立 


"9.8 
9.9 
9.10 


9.11 
9.12 


9.13 


的 , 并 证 明 该 算法 的 运行 时 间 为 O(|E|.|VI)。 

设 一 个 图 的 所 有 边 的 权 都 是 在 1 和 | 无 | 之 间 的 整数 。Dijkstra 算法 可 以 多 快 被 实现 ? 

写 出 一 个 程序 来 求解 单 源 最 短路 径 问 题 。 

a. 解释 如 何 修改 Dijkstra 算法 以 得 到 从 v A «o 的 不 同 的 最 小 路 径 的 条 数 的 计数 。 

b. 解释 如 何 修改 Dijkstra 算法 使 得 如 果 存 在 多 于 一 条 从 v 到 w 的 最 小 路 径 , 那么 具有 最 
少 边 数 的 路 径 将 被 选中 。 

找 出 图 9-79 中 网 络 的 最 大 流 。 

设 G=(V,E) 是 一 棵 树 ,，s ECHR, 并 且 添 加 一 个 顶点 上 以 及 一 些 从 G 中 所 有 树叶 到 

t 的 无 穷 容 量 的 边 。 给 出 一 个 线性 时 间 算 法 以 找 出 从 s Ble 的 最 大 流 。 

一 个 二 分 图 G-(V, EHE V 划分 成 两 个 子 集 Wi 和 V 并 且 其 每 条 边 的 两 个 顶点 都 

不 在 同一 个 子 集中 的 图 

a. 给 出 一 个 线性 算法 以 饥 定 .个 图 是 否 是 二 分 图 。 

b. 二 分 匹配 问题 是 找 出 E 的 最 大 子 集 E' 使 得 没有 顶点 含 在 多 于 一 条 的 边 中 。 图 9-81 中 
所 示 的 是 四 条 边 的 一 个 匹配 (由 虚线 表示 )。 存 在 一 个 五 条 边 的 匹配 , 它 是 最 大 的 
匹配 。 

指出 二 分 匹配 问题 如 何 能 够 用 于 解决 下 列 问题 有 一 组 教师 、 一 组 课程 ,以 及 每 位 
教师 有 资格 教授 的 课程 表 。 如 果 没 有 教师 需要 教授 多 于 一 门 的 课程 , 而 且 只 有 一 位 教师 

可 以 教授 一 门 给 定 的 课程 , 那么 可 以 提供 开设 的 课程 的 最 大 门 数 是 多 少 ? 

c. 证 明 网 络 流 问题 可 以 用 来 解决 二 分 匹配 问题 。 

d. 你 对 问题 (b) 的 解法 的 时 间 复 杂 度 如 何 ? 
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9.14 
9.15 


9.16 
9.17 
9.18 
9.19 
9.20 
9.21 


9.22 
9.23 


9.24 
9.25 


9.26 





图 9-81 一 个 二 分 图 


给 出 一 个 算法 找 出 容许 最 大 流通 过 的 一 条 增长 通路 。 
a. 使 用 Prim 和 Kruskal 两 种 算法 求 出 图 9-82 中 图 的 最 小 生成 树 。 
b. 这 棵 最 小 生成 树 是 唯一 的 吗 ? 为 什么 ? 





9-82 ”用 于 练习 9.15 的 图 


如 果 有 一 些 负 的 边 权 , 那么 Prim 算法 或 Kruskal 算法 还 能 行 得 通 吗 ? 

证 明 V 个 顶点 的 图 可 以 有 VV” 棵 最 小 生成 树 。 

编写 一 个 程序 实现 Kruskal 算法 。 

如 果 一 个 图 的 所 有 边 的 权 都 在 1 和 |E| 之 间 , 那么 能 有 多 快 算出 最 小 生成 树 ? 

给 出 一 种 算法 求解 最 大 生成 树 。 这 上 比 求 解 最 小 生成 树 更 难 吗 ? 

求 出 图 9-83 中 图 的 所 有 的 割 点 。 指 出 深度 优先 生成 树 和 每 个 顶点 的 Num fl Low 的 值 。 





9-83 ”练习 9.21 中 的 图 


证 明 查 找 割 点 的 算法 能 够 正常 运行 。 
a. 给 出 一 种 算法 , 求 出 从 一 个 无 向 图 中 被 删除 后 使 所 得 的 图 是 无 圈 图 所 需要 的 最 小 的 
边 数 。 


"b. 证 明 这 个 问题 对 有 问 图 是 NP- 完 全 的 。 


WEBB, 在 一 个 有 回 图 的 深度 优先 生成 森林 中 所 有 的 交叉 边 都 是 从 右 到 左 的 。 

给 出 一 种 算法 以 决定 在 一 个 有 向 图 的 深度 优先 生成 森林 中 的 一 条 边 (u, wy) 是 否 是 树 、 背 
向 边 、 交 叉 边 或 前 向 边 。 

找 出 图 9-84 的 图 中 的 强 连通 分 支 。 
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9.27 
"9.28 


9.34 


9.35 


9,36 


"9,37 


RIF 


D) (E 
9-84 练习 9.26 中 所 使 用 的 图 


编写 一 个 程序 使 能 找 出 一 个 有 向 图 中 的 强 连通 分 支 。 

给 出 一 种 算法 只 用 一 次 深度 优先 搜索 即 可 找 出 那些 强 连通 分 支 来 。 使 用 类 似 于 双 连 通 性 

算法 的 算法 。 

一 个 图 G 的 双 连 通 分 支 (biconnected components) 是 把 边 分 成 一 些 集合 的 划分 , 使 得 每 个 

边 集 所 形成 的 图 是 双 连 通 的 。 修 改 图 9-67 中 的 算法 使 能 找 出 双 连 通 分 支 而 不 是 割 点 。 

设 我 们 对 一 个 无 向 图 进行 广度 优先 搜索 (breadth-first search) 并 建立 一 棵 广度 优先 生成 树 

(breadth-first spanning tree)。 证 明 该 树 所 有 的 边 或 者 是 树 边 或 者 是 交叉 边 。 

给 出 一 种 算法 ,以 在 一 无 向 图 (连通 的 ) 中 找 出 一 条 路 径 使 其 在 每 个 方向 上 通过 每 条 边 恰 

好 一 次 。 

a. 编写 一 个 程序 以 找 出 图 中 的 一 条 欧 拉 回 路 (如 果 存 在 的 话 )。 

b. 编写 一 个 程序 以 找 出 图 中 的 一 条 欧 拉 环 游 (如 果 存 在 的 话 )。 

有 向 图 中 的 欧 拉 回路 是 一 个 圈 , 该 圈 中 的 每 条 边 恰好 被 访问 一 次 。 

‘a. 证明, 有 向 图 有 欧 拉 回 路 当 且 仅 当 它 是 强 连通 的 并 且 每 个 顶点 的 人 度 等 于 出 度 。 
* b. 给 出 一 个 线性 时 间 算 法 ,在 存在 欧 拉 回 路 的 有 向 图 中 找 出 一 条 欧 拉 回 路 。 

a. 考虑 欧 拉 回 路 问题 的 下 列 解法 : 假设 图 是 双 连 通 的 。 执 行 一 次 深度 优先 搜索 ,只 在 万 
不 得 已 的 时 候 使 用 背 向 边 。 如 果 图 不 是 双 连 通 的 , 则 对 双 连 通 分 支 递归 地 应 用 该 算 
法 。 这 个 算法 行 得 通 吗 ? 

b. 设 当 用 到 背 向 边 时 我 们 取 用 连接 到 最 近 祖 先 节 点 的 背 向 边 , 那么 该 算法 是 否 行 得 通 ? 

平面 图 (planar graph) 是 可 以 画 在 一 个 平面 上 而 其 任何 两 条 边 都 不 相交 的 图 。 

“a. 证 明 图 9-85 中 的 两 个 图 都 不 是 平面 图 。 
b. 证 明 , 在 平面 图 中 必然 存在 某 个 顶点 与 最 多 不 超过 5 个 顶点 相连 。 


"* c. 证 明 在 平面 图 中 I EIS3IVI -6。 


图 9-85 练习 9.35 中 使 用 的 图 


多 重 图 (multigraph) 是 在 其 内 的 顶点 对 之 间 可 以 有 多 重 边 (multiple edge) 的 图 。 本 章 中 哪 
些 算法 对 于 多 重 图 不 用 修改 就 能 正确 运行 ? 对 其 余 的 算法 需要 进行 哪些 修改 ? 

令 G=(V,E) 是 一 个 无 向 图 。 使 用 深度 优先 搜索 设计 一 个 线性 算法 把 G 的 每 条 边 转 换 
成 有 向 边 使 得 所 得 到 的 图 是 强 连 通 的 , 或 者 确定 这 是 不 可 能 的 。 


9.38 给 你 一 套 棍 共 N PR, 它们 以 某 种 结构 相互 登 压 平 放 。 每 棵 棍 由 它 的 两 个 端点 确定 ; 每 个 
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9.42 


9.43 


9.44 给 出 


9.45 


9.47 


9.48 


端点 是 由 xy 和 > 坐标 确定 的 有 序 三 元 组 ; 没有 机 垂直 摆 放 。 一 棵 棍 仅 当 其 上 没有 其 他 

棍 放置 时 可 以 取 走 。 

a 解释 如 何 编写 一 个 例 程 接收 两 棵 棍 a Blo 并 报告 a 是否 在 上 上面、5 下 面 , 或 是 与 6 
无 关 。( 本 问题 与 图 论 毫 无 关系 。) 

b. 给 出 一 个 算法 确定 是 否 能 够 取 走 所 有 的 棍 , 如 果 能 , 那么 提供 完成 这 项 工作 的 棍 拾取 
次 序 。 

如 果 一 个 图 的 每 个 顶点 都 可 以 给 定 种 额 色 之 一 ,并且 没有 边 连 接 相同 颜色 的 顶点 , N 

称 该 图 是 可 着 色 的 。 给 出 一 个 线性 时 间 算 法 测试 图 的 2- 着 色 性 。 假 设 图 以 邻接 表 的 

形式 存储 ,你 必须 指明 任何 所 需要 的 附加 的 数据 结构 。 

给 出 一 种 多 项 式 时 间 算 法 , 使 在 任意 的 无 向 图 中 能 够 找 出 FV 人 21 个 顶点 ,这些 顶点 至 少 

覆盖 图 的 3/4 的 边 。 

指出 如 何 修改 拓扑 排序 算法 使 得 如 果 图 不 是 无 图 图 ， 则 该 算法 将 显示 出 某 个 图 来 。 可 以 

不 用 深度 优先 搜索 。 

令 G 为 一 有 向 图 , 该 图 有 N 个 顶点 。 如 果 对 V 中 每 一 个 顶点 名 有 s 关 w， 且 存在 边 (%， 

s) 但 是 不 存在 形 如 (s, wv) 的 边 , 则 顶点 s 叫做 收 点 (sink)。 给 出 一 个 O(N) 时 间 算 法 , 确 

E G 是 否 有 收 点 , 假设 G HNX N 邻接 矩阵 给 定 。 

当 把 一 个 顶点 和 与 它 关 联 的 边 从 一 棵 树 中 除去 后 , 则 剩 下 一 些 子 树 。 给 出 一 个 线性 时 间 

算法 ,使 能 找 出 一 个 顶点 , 从 N 个 顶点 的 树 中 删除 该 顶点 将 不 会 留 下 多 于 N/2 个 顶点 的 

子 树 。 

一 个 线性 时 间 算法 确定 无 图 无 向 图 ( 即 树 ) 中 的 最 长 无 权 路 径 。 

考虑 N x N 网 格 。 网 格 中 一 些 方 格 由 黑色 加 

形 占据 。 若 两 个 方 格 共享 一 条 边 , 则 它们 属于 ”上 | | E 

同一 组 。 在 图 9.86 中 , 有 一 组 由 4 RUD 二 

本 一 组 。 在 图 9.86 中 , 有 一 组 由 4 个 黑 加 占据 | 二 | | PTT 

的 方 格 组 成 ,三 组 由 2 个 黑 国 占 据 的 方 格 组 成 ， [| [NN | NR | 

两 组 由 单个 黑 圆 占据 的 方 格 组 成 。 假 设 网 格 由 

二 维 数组 表示 。 编 写 一 个 程序 进行 下 列 工作 

a. 当 给 出 组 中 一 个 方 格 时 计算 该 组 的 大 小 。 

b. 计算 不 同 的 组 的 个 数 。 

c. 列 出 所 有 的 组 。 

本 书 8.7 节 描述 了 迷宫 的 生成 。 设 我 们 想 要 输 

出 迷宫 中 的 路 径 。 假 设 迷 宫 由 一 个 矩阵 表示 ; 

矩阵 中 的 每 个 单元 存储 关于 墙 存在 (或 不 存在 ) 的 信息 。 

a. 编写 一 个 程序 计算 输出 迷宫 中 路 径 的 足够 的 信息 。 以 SEN.…( 代 表 向 南 ,然后 向 东 , A 
后 再 向 北 , 等 等 ) 的 形式 给 出 输出 结果 。 

b. 编写 一 个 画 出 迷宫 程序 , 并 且 当 按 下 按钮 时 画 出 路 径 。 

设 迷 宫 中 的 墙 可 以 推倒 , 但 要 受罚 个 方块 。P 为 指定 给 算法 的 参数 (如 果 处 罚 是 0, HB 

么 问题 是 平凡 的 )。 描 述 一 种 算法 解决 这 种 类 型 的 问题 。 你 的 算法 的 运行 时 间 是 多 少 ? 

设 迷宫 可 以 有 解 也 可 以 没有 解 。 

a. 描述 一 个 线性 时 间 算 法 ,该 算法 确定 为 了 建立 一 个 解 而 需要 推倒 的 墙 的 最 小 面 数 。 
(提示 : 用 一 个 双 端 队列 ) 

b. 描述 一 种 算法 (不 必 是 线性 的 ), 该 算法 能 够 在 推倒 最 小 数目 的 墙 之 后 找到 最 短路 径 。 





ES 


9-86 练习 9.45 中 的 网 格 


Download at http:// www.pinb5i.com/ 


278 


9.49 


9.50 


9.51 


9.52 


9.53 


9.56 


$93 


— — — — — — 


注意 , 问题 (a) 的 解法 给 不 出 哪些 面 墙 最 好 被 推倒 的 信息 。( 提 示 : 使 用 练习 9.47。) 

编写 一 个 程序 计算 其 单字 母 替换 取 值 为 1, 而 单字 母 添加 或 删除 取 值 p >0 misse, 取 值 

由 用 户 指定 。 在 9.3.6 BREES, 这 实际 上 是 一 个 赋 权 最 短路 径 问 题 。 
解释 下 列 问 题 ( 练 习 9.50-9.53) 应 用 最 短路 径 算法 如 何 能 够 解 出 。 然 后 设计 一 种 表 

示 输 出 的 办 法 , 并 编写 一 个 程序 求解 相应 的 问题 。 

输入 是 一 组 联赛 成 绩 得 分 (没有 平局 )。 如 果 所 有 的 队 至 少 有 一 场 赢 和 一 场 输 , 那么 我 们 

可 以 通过 愚蠢 的 传递 性 论证 一 般 性 地 证 明 , 任 一 队 都 比 别 的 队 强 。 例 如 , 在 6 队 联 赛 中 ， 

每 队 进行 3 局 比赛 , 设 有 下 列 结果 : ARBA C; BHECAIF; CHD; DHE; EFA; F 

HE D ALE, 此 时 我 们 可 以 证 明 A 比 F 强 , 因为 A 胜 B 而 B 又 胜 了 F。 类 似 地 , 我 们 还 可 

以 证 明 下 比 A 强 , 因为 下 胜 下 而 正 又 胜 了 A。 给 定 一 组 比赛 得 分 和 两 支 运动 队 X RI Y, 

要 么 找 出 一 个 证 明 ( 若 存在 的 话 )X 比 Y 强 , 要 么 指出 找 不 到 这 种 形式 的 证 明 。 

设 输入 为 一 组 货币 和 它们 的 兑换 率 。 是 否 存 在 一 种 兑换 顺序 能 够 立刻 赚 到 钱 ? 例如 , f 

mié X,Y AZ, 兑换 率 为 1X 等 于 2Y,1Y ST 2Z, 而 1X 等 于 3Z。 此 时 ,3002 将 买 

到 100X, 而 100X 又 能 买 到 200Y, 而 后 者 将 换 到 400Z。 这 样 , 我 们 就 得 到 3396 的 

收益 。 

一 名 学 生 需 要 选修 一 定量 的 课程 才 可 获得 学 位 , 而 课程 的 选取 必须 遵守 选修 顺序 。 假 设 

每 个 学 期 都 提供 所 有 的 课程 ,并 设 学 生 可 以 选修 无 限 多 门 课程 。 给 定 提供 的 课程 表 和 它 

们 的 先 修 课 , 计算 出 需要 最 少 学 期 数 的 课程 表 。 

Kevin Bacon 游戏 的 目标 是 通过 一 些 分 享 的 电影 角色 把 电影 演员 和 Kevin Bacon 链接 起 

来 。 链 接 的 最 小 数目 为 演员 的 Bacon 数 。 例 如 ，Tom Hanks 的 Bacon 数 为 1; 他 在 Apollo 

13 中 与 Kevin Bacon 分 享 角 色 。Sally Field 的 Bacon 数 是 2, 因为 她 在 电影 Forrest Gump 

中 与 Tom Hanks 分 享 角色 , 而 后 者 又 在 电影 Apollo 13 中 与 Kevin Bacon AFE., JLF 

所 有 著名 演员 的 Bacon 数 都 是 1 或 者 2。 假 设 你 有 一 个 广泛 的 演员 表 , 包含 他 们 所 演 的 

角色 ,完成 下 列 工作 : 

a. 解释 如 何 查 找 演员 的 Bacon 数 。 

b. 解释 如 何 查找 具有 最 高 Bacon 数 的 演员 。 

c. 解释 如 何 查找 任意 两 个 演员 之 间 的 最 小 链接 次 数 。 

团 问题 (clique problem) 可 以 叙述 如 下 : 给 定 无 向 图 G=(V,E) 和 一 个 整数 K,G 包含 最 

少 K 个 顶点 的 完全 子 图 吗 ? 

TA 35 AL FIA (vertex cover problem) 可 以 叙述 如 下 : 给 定 无 向 图 G=(V,E) 和 一 个 整数 

K,G 是 否 包 含 一 个 子 集 VCYV 使 得 | V’ |< K3FHG 的 每 条 边 都 有 一 个 顶点 在 V' 中 ? 

证 明 团 问题 可 以 多 项 式 地 归 约 成 顶点 覆盖 问题 。 

设 哈 密 尔 顿 圈 问 题 对 无 向 图 是 NP- 完 全 的 。 

a. 证 明了 哈密 尔 顿 圈 问 题 对 有 向 图 也 是 NP- 完 全 的 。 

b. 证 明 无 权 简 单 最 长 路 径 问 题 对 有 向 图 是 NP- 完 全 的 。 

棒球 卡 收 藏 家 问题 (baseball card collector problem) 如 下 : 给 定 卡片 包 P), P, ,…,Pv 以 及 

一 个 整数 K ,其 中 每 个 包 包 含 年 度 棒球 卡 的 一 个 子 集 , 问 是 否 可 能 通过 选择 小 于 或 等 于 

K 个 包 而 搜集 到 所 有 的 棒球 卡 ? 证 明 棒 球 卡 收藏 家 问题 是 NP- 完 全 的 。 


O 例如, 可见 Internet Movie Database 文件 actors. list. gz 和 actresses. list.gz, 网 址 为 ftp: //ftp. fu-berlin. de/pub/misc/ 


movies/database, 
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第 10 章 ”算法 设计 技巧 


迄今 我 们 已 经 涉及 一 些 算法 的 有 效 实现 。 我 们 看 到 ， 当 一 个 算法 给 定时 , 具体 的 数据 结构 无 
需 指 定 。 为 使 运行 时 间 尽 可 能 地 少 , 需要 由 编程 人 员 来 选择 适当 的 数据 结构 。 | 

本 章 将 把 注意 力 从 算法 的 实现 转向 算法 的 设计 。 到 现在 为 止 , 我 们 已 经 看 到 的 大 部 分 算法 
都 是 直接 且 简 单 的 。 第 9 章 包 含 的 一 些 算法 要 深奥 得 多 , 有 些 需 要 (在 有 些 情 形 下 很 长 的 ) 论 证 以 
证 明 它 们 确实 是 正确 的 。 在 这 一 章 , 我 们 将 集中 讨论 用 于 求解 问题 的 五 种 通常 类 型 的 算法 。 对 
于 许多 问题 , 很 可 能 这 些 方法 中 至 少 有 一 种 方法 是 可 以 解决 问题 的 。 特 别 地 , 对 于 每 种 类 型 的 算 
法 我 们 将 

。 了 解 一 般 的 处 理 方法 。 

。 考查 几 个 例子 (本 章 末 尾 的 练习 提供 了 更 多 的 例子 )。 

。 在 适当 的 地 方 概括 地 讨论 时 间 和 空间 复杂 性 。 


10.1 eB 


我 们 将 要 考查 的 第 一 种 类 型 的 算法 是 贪 殊 算 法 (greedy algorithm)。 在 第 9 章 我 们 已 经 看 到 三 
个 贪 禁 算 法 : Dijkstra 算法 、Prim 算法 和 Kruskal 算法 。 贪 禁 算 法 分 阶段 地 工作 。 在 每 一 个 阶段 ， 
可 以 认为 所 做 决定 是 好 的 , 而 不 考虑 将 来 的 后 果 。 通 常 , 这 意味 着 选择 的 是 某 个 局 部 最 优 。 这 种 
“眼下 能 够 拿 到 的 就 拿 " 的 策略 是 这 类 算法 名 称 的 来 源 。 当 算法 终止 时 , 我 们 希望 局 部 最 优等 于 
全 局 最 优 。 如 果 是 这 样 的 话 , 那么 算法 就 是 正确 的 ; 否则 , 算法 得 到 的 是 一 个 次 最 优 解 
(suboptimal solution)。 如 果 不 要 求 绝对 最 佳 答案 , 那么 有 时 使 用 简单 的 贪 禁 算法 生成 近似 的 答 
R, 而 不 是 使 用 通常 产生 准确 答案 所 需要 的 复杂 算法 。 

有 几 个 现实 的 贪 禁 算 法 的 例子 。 最 明显 的 是 辅币 找 零 钱 问题 。 要 使 用 美国 货币 找 零 钱 , 我 
们 重复 地 配 发 最 大 额 货币 。 于 是 , 为 了 找 出 十 七 美元 六 十 一 美 分 的 零钱 , 我 们 拿 出 一 张 十 美元 
gb, 一 张 五 美元 钞 , 两 张 一 美 元 钞 , 两 个 二 十 五 分 币 , 一 个 十 分 币 , 以 及 一 个 分 币 。 这 么 做 , 我 们 
保证 使 用 最 少 的 钞票 和 硬币 。 这 个 算法 不 是 对 所 有 的 货币 系统 都 行 得 通 , 但 幸运 的 是 , 我 们 可 以 
证 明 它 对 美国 货币 系统 是 正确 的 。 事 实 上 , 即使 允许 使 用 两 美元 钞 和 五 十 美 分 币 该 算法 仍然 是 
可 行 的 。 

交通 问题 有 一 个 例子 , 在 这 个 例子 中 , 进行 局 部 最 优选 择 不 总 是 行 得 通 的 。 例 如 , 在 迈阿密 
的 某 些 交 通 高 蜂 期 间 ， 即 使 一 些 主 要 马路 看 起 来 空荡荡 的 , 你 坡 好 还 是 把 车 停 在 这 些 街道 以 外 ， 
因为 交通 将 会 沿 着 马路 阻塞 一 英里 长 , 你 也 就 被 堵 在 那里 动弹 不 得 。 有 时 其 至 更 糟 , 为 了 回避 所 
有 的 交通 瓶颈 , 最 好 是 朝 着 你 的 目的 地 相反 的 方向 临时 绕道 行驶 。 

本 节 其 余部 分 将 考查 几 个 使 用 贪 禁 算 法 的 应 用 。 第 一 个 应 用 是 简单 的 调度 问题 。 实 际 上 ， 
所 有 的 调度 问题 或 者 是 NP- 完 全 的 (或 属于 类 似 的 难度 ), 或 者 是 贪 禁 算法 可 解 的 。 第 二 个 应 用 处 
理 文件 压缩 , 它 是 计算 机 科学 最 早 的 成 果 之 一 。 最 后 , 我 们 将 介绍 一 个 贪 禁 近似 算法 的 例子 。 
10.1.1 一 个 简单 的 调度 问题 

"B TEM. ji. ja) 已 知 对 应 的 运行 时 间 分 别 为 t,t,,…, ty, 而 处 理 器 只 有 一 个 。 为 了 
把 作业 平均 完成 的 时 间 最 小 化 , 调度 这 些 作 业 最 好 的 方式 是 什么 ”整个 这 一 节 我 们 将 假设 非 预 
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占 调度 (nonpreemptive scheduling): 一 旦 开始 一 个 作业 ， 就 必须 把 该 作业 运行 到 完成 。 

作为 一 个 例子 , 设 我 们 有 四 个 作业 和 相关 的 运行 时 间 如 图 10-1 所 示 。 一 个 可 能 的 调度 在 图 
10-2 中 指出 。 因 为 站 用 15 个 时 间 单 位 运行 结束 , ja 用 23, ja 用 26, 而 j4 用 36, 所 以 平均 完成 时 
间 为 25。 一 个 更 好 的 调度 由 图 10-3 表示 , 它 产生 的 平均 完成 时 间 为 17.75。 


作业 时 间 





^| UD elon 
0 15 23 26 36 06 —3 ii 2l 6 
图 10-1. 作业 和 时 间 图 10-2 1 号 调度 图 10-3 2 号 调度 (最 优 ) 


图 10-3 给 出 的 调度 是 按照 最 短 的 作业 最 先进 行 来 安排 的 。 我 们 可 以 证 明 这 将 总 会 产生 一 个 
最 优 的 调度 。 令 调 度 表 中 的 作业 是 Ji, dist »Ji o 第 一 个 作业 以 时 间 t; 完成 。 第 二 个 作业 在 i; + 
ti 后 完成 而 第 三 个 作业 在 t, +t, + 后 完成 。 由 此 得 到 , 该 调度 总 的 代价 C 为 : 


C= 3(N-k*Di, (10.1) 
C-(N*D5I& - Dest (10.2) 


注意 , 在 方程 (10.2) 中 第 一 个 和 与 作业 的 排序 无 关 , 因此 只 有 第 二 个 和 影响 到 总 开销 。 设 在 
一 个 排序 中 存在 某 个 z >y 使 得 i; <t o Ei, 计算 表明 , 交换 j 和 j; ,第 二 个 和 增加 ,从 而 降 
低 了 总 的 开销 。 因 此 , 所 用 时 间 不 是 单调 非 减 的 任何 的 作业 调度 必然 是 次 最 优 的 。 剩 下 的 只 有 
那些 其 作业 按照 最 小 运行 时 间 最 先 安排 的 调度 才 是 所 有 调度 方案 中 最 优 的 。 

这 个 结果 指出 操作 系统 调度 程序 一 般 把 优先 权 赋 予 那些 更 短 的 作业 的 原因 。 
多 处 理 器 的 情况 

我 们 可 以 把 这 个 问题 扩展 到 多 个 处 理 器 的 情形 。 我 们 还 是 有 作业 Ji jov 对 应 的 运行 
RASA t), to. tn, 男 有 处 理 器 的 个 数 P。 不 失 一 般 性 , 我 们 将 假设 作业 是 有 序 的 , 最 短 的 
运行 时 间 最 先 处 理 。 例 如 , 设 P=3, 而 作业 如 图 10-4 所 示 。 

图 10-5 显示 一 个 最 优 的 安排 , 它 把 平均 完成 时 间 优 化 到 最 小 。 作 业 jija 和 7; 在 处 理 器 1 
上 和 运行。 处 理 器 2 处 理 作业 j,,js Pl jg, 而 处 理 器 3 运行 其 余 的 作业 。 总 的 完成 时 间 为 165, 平均 


pS- 18.33, 





0 3 56 13 16 20 28 34 40 
图 10-4 ”作业 和 了 时间 | 图 10-5 多 处 理 器 情形 的 一 个 最 优 解 
解决 多 处 理 器 情形 的 算法 是 按 顺 序 开 始 作 业 , 处 理 器 之 间 轮 换 分 配 作 业 。 不 难 证 明 没 有 哪 
个 其 他 的 顺序 能 够 做 得 更 好 , 虽然 处 理 器 个 数 P 能 够 整除 作业 数 N 时 存在 许多 最 优 的 顺序 。 对 
于 每 一 个 0 人 i< N/P, 把 从 je. BE j(;; 1p 的 每 一 个 作业 放 到 不 同 的 处 理 器 上 , 可 以 得 到 这 样 
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的 最 优 顺 序 。 在 该 例 中 , 图 10-6 指出 了 第 二 个 最 优 解 。 





0 356 i415 20 30 34 38 
图 10-6 ”多 处 理 器 情形 的 第 二 个 最 优 解 


即使 P 不 恰好 整除 N, 哪怕 所 有 的 作业 时 间 是 互 异 的 , 还 是 仍然 能 够 有 许多 最 优 解 。 我 们 把 
进一步 的 考查 留 做 练习 。 
将 最 后 完成 时 间 最 小 化 

在 本 小 节 最 后 ,考虑 一 个 非常 类 似 的 问题 ,假设 我 们 只 关注 最 后 的 作业 的 结束 时 间 。 在 上 
面 的 两 个 例子 中 , 它们 的 完成 时 间 分 别 是 40 和 38。 图 
10-7 指出 最 小 的 最 后 完成 时 间 是 34, 而 这 个 结果 显然 
不 能 再 改进 了 ,因为 每 一 个 处 理 器 都 在 一 直 处 于 繁忙 
状态 。 

虽然 这 个 调度 没有 最 小 平均 完成 时 间 , 但 是 它 有 一 : 
个 优点 , 即 整个 序列 的 完成 时 间 更 早 。 如 果 同一 个 用 户 。 ”图 10-7 将 最 后 完成 时 间 最 小 化 
拥有 所 有 这 些 作 业 , 那么 该 调度 是 更 可 取 的 调度 方法 。 虽 然 这 些 问题 非常 相似 , 但 是 这 个 新 问题 
实际 上 是 NP- 完 全 的 ; 它 恰 是 背包 问题 或 装 箱 问 题 的 另 一 种 表述 方式 ,在 本 节 后 面 我 们 还 将 遇 到 
它 。 因 此 , 将 最 后 完成 时 间 最 小 化 显然 要 比 把 平均 完成 时 间 最 小 化 困难 得 多 。 
10.1.2 SAB 

在 这 一 节 , 我 们 考虑 贪 禁 算 法 的 第 二 个 应 用 , 称 为 文件 压缩 (file compression) « 

标准 的 ASCII 字符 集 大 约 由 100 个 “可 打印 "字符 组 成 。 为 了 把 这 些 字 符 区 分 开 来 , 需要 
[log 1001=7 比特 。 但 7 比特 可 以 表示 128 个 字符 , 因此 ASCII 字符 还 可 以 再 加 上 一 些 其 他 的 “ 非 
打印 "字符 。 我 们 加 上 第 8 个 比特 位 作为 奇偶 校 验 位 。 然 而 , 重要 的 问题 在 于 ， 如 果 字 符 集 的 大 
小 是 C, 那么 在 标准 的 编码 中 就 需要 [ log C1 个 比特 。 

设 我 们 有 一 个 文件 , 它 只 包含 字符 a,e,i,s,t， 加 上 一 些 空格 和 newline (换行 )。 进 一 步 设 
该 文件 有 10 个 a、15 个 e、12 个 i、3 个 s、4 个 +、13 个 空格 以 及 一 个 newlines WA 10-8 中 的 
表 所 示 , 这 个 文件 需要 174 个 比特 来 表示 , 因为 有 58 个 字符 而 每 个 字符 需要 3 个 比特 。 





0 35 9 14 16 19 34 





图 10-8 使 用 一 个 标准 编码 方案 


在 现实 中 , 文件 可 能 是 相当 大 的 。 许 多 非常 大 的 文件 是 某 个 程序 的 输出 数据 ， 而 在 使 用 频率 
最 大 和 最 小 的 字符 之 间 通 常 存在 很 大 的 差别 。 例 如 , 许多 巨大 的 文件 都 含有 大 量 的 数字 、 空 格 和 
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newline, 但 是 g 和 z 却 很 少 。 如 果 我 们 在 慢 速 的 电话 线 上 传输 这 些 信 息 , 那么 就 会 希望 减少 文 
件 的 大 小 。 还 有 , 由 于 实际 上 每 一 台 机 器 上 的 磁盘 空间 都 是 非常 珍贵 的 , 因此 人 们 就 会 想到 是 否 
有 可 能 提供 一 种 更 好 的 编码 以 降低 总 的 所 需 比 特 数 。 

答案 是 肯定 的 , 一 种 简单 的 策略 可 以 使 典型 的 大 型 文件 节省 25%, 而 使 许多 大 型 的 数据 文 
件 节省 多 达 50% ~60%。 这 种 一 般 的 策略 就 是 让 代码 的 长 度 从 字符 到 字符 是 变化 不 等 的 , 同时 
保证 经 常 出 现 的 字符 其 代码 要 短 。 注 意 , 如 果 所 有 的 字符 都 以 相同 的 频率 出 现 , 那么 节省 的 问题 
是 不 可 能 存在 的 。 

代表 字母 的 二 进 制 代码 可 以 用 二 叉 树 来 表示 ， 如 图 10-9 所 示 。 

10-9 中 的 树 只 在 树叶 上 有 数据 。 每 个 字符 通过 从 根 节点 开始 用 0 指示 左 分 支 用 1 指示 石 
分 支 而 以 记录 路 径 的 方法 表示 出 来 。 例 如 ，s 通过 从 根 向 左 走 ,然后 向 右 ， 最 后 再 向 右 而 达到 ， 
于 是 它 被 编码 成 011。 这 种 数据 结构 有 时 叫做 trie 树 (trie)。 如 果 字 符 c; ERRE di SIF HEN f; 
次 , 那么 这 种 编码 的 值 (cost) 就 等 于 2 djf;。 

一 种 比 图 10-9 给 出 的 代码 更 好 的 代码 可 以 利用 newline (换行 )( 它 是 一 个 仅 有 的 儿子 ) 而 得 
到 。 通 过 把 newline 符号 放 到 其 更 高 一 层 的 父 节点 上 , 得 到 图 10-10 中 的 新 树 。 这 标 新 树 的 值 是 
173, 但 该 值 仍然 没有 达到 最 优 。 


AT AR 
foh, sp 代表 space, nl 代表 newline a € 5 


图 10-9 树 中 原始 代码 的 表示 法 图 10-10 稍微 好 一 些 的 树 


注意 , 图 10-10 中 的 树 是 一 棵 满 树 (full tree) : 所 有 的 节点 要 么 是 树叶 , 要 么 有 两 个 儿子 。 一 - 
种 最 优 的 编码 将 总 具有 这 个 性 质 ,否则 , 正如 我 们 已 经 看 到 的 ,具有 一 个 儿子 的 节点 可 以 向 上 移 
动 一 层 。 

如 果 字 符 都 只 放 在 树叶 上 , 那么 任何 比特 序列 总 能 够 被 毫 不 含糊 地 译 码 。 例 如 , 设 编码 串 是 
0100111100010110001000111。0 不 是 字符 代码 , 01 也 不 是 字符 代码 , 但 010 是 i, 于 是 第 一 个 字 
符 是 i。 然 后 跟着 的 是 011, 它 是 字符 *。 其 后 的 11 是 newline。 剩 下 的 代码 分 别 是 a, space,t, 
i e 和 newline。 因 此 , 这 些 字符 代码 的 长 度 是 否 不 辣 并 不 要 紧 , 关键 是 只 要 没有 字符 代码 是 别 的 
字符 代码 的 前 级 就 行 。 这 样 一 种 编码 叫做 前 缀 码 (prefix code). FAM, 如 果 一 个 字符 放 在 非 树 叶 
PAL, 那 就 不 再 能 够 保证 译 码 没 有 二 义 性 。 

综 上 所 述 , 基本 的 问题 在 于 找到 总 价值 最 小 (如 上 定义 的 ) 的 满 二 又 树 , 其 中 所 有 的 字符 都 位 
于 树叶 上 。 图 10-11 中 的 树 显 示 该 例 样本 字母 表 的 最 优 树 。 从 图 10-12 可 以 看 到 , 这 种 编码 只 用 
了 146 比特 。 








编码 频率 比特 数 

001 10 30 
01 15 30 
10 12 24 


图 10-11 最 优 前 缀 码 10-12 最 优 前 级 码 
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注意 , 这 里 存在 许多 的 最 优 编码 。 这 些 编码 可 以 通过 交换 编码 树 中 的 儿子 节点 得 到 。 此 时 ， 
主要 未 解决 的 问题 是 如 何 构造 编码 树 。1952 年 Huffman 给 出 了 一 个 算法 。 因 此 , 这 种 编码 系统 
通常 称 为 哈 夫 曼 编码 (Hufman code) - 
BARRE 

本 小 节 我 们 将 假设 字符 的 个 数 为 C。 哈 夫 曼 算法 (Huffman's algorithm) 可 以 描述 如 下 : 算法 
对 由 树 组 成 的 一 个 森林 进行 。 一 棵 树 的 权 等 于 它 的 树叶 的 频率 的 和 。 任 意 选 取 最 小 权 的 两 棵 树 
T, 和 T, 并 任意 形成 以 Ti AT. 为 子 树 的 新 树 , 将 这 样 的 过 程 进行 C 一 1 次。 在 算法 的 开始 ， 
存在 C 棵 单 节 点 树 一 一 每 个 字符 一 棵 。 在 算法 结束 时 得 到 一 棵 树 ， 这 棵 树 就 是 最 优 哈 夫 曼 编 
码 树 。 

我 们 通过 一 个 具体 例子 来 理解 算法 的 操作 。 图 10-13 表示 的 是 初始 的 森林 ,每 棵 树 的 权 在 根 
处 以 小 号 数字 标 出 。 将 两 棵 权 最 低 的 树 合并 到 一 起 , 由 此 建立 了 图 10-14 中 的 森林 。 我 们 将 新 的 
根 命名 为 Ti, 这 样 使 得 进一步 的 合并 可 以 确切 无 误 地 表述 。 图 中 令 s 是 左 儿 子 , 这 里 , 令 其 为 左 
儿子 还 是 右 儿 子 是 任意 的 ; 注意 可 以 使 用 哈 夫 曼 算法 描述 中 两 个 任意 性 。 新 树 的 总 权 正 是 那些 
老 树 的 权 的 和 ， 当然 也 就 很 容易 计算 。 由 于 建立 新 树 只 需 得 出 一 个 新 节点 ,建立 左 链接 和 右 链接 
并 把 权 记 录 下 来 ,因此 创建 新 树 很 简单 。 


Ty 
q'e coog.g Je goo, 
图 10-13 哈 夫 曼 算法 的 初始 状态 图 10-14 第 一 次 合并 后 的 哈 夫 曼 算 法 


现在 有 6 棵 树 , 我 们 再 选取 两 棵 权 最 小 的 树 。 这 两 棵 树 是 T 和 1, 然后 将 它们 合并 成 一 棵 
新 树 , 树 根 在 T2, BUE S, 见 图 10-15。 第 三 步 将 T2 和 a 合并 建立 T3, 其 权 为 10+8= 18。 
10-16 显示 这 次 操作 的 结果 。 


a o" 
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图 10-15 第 二 次 合并 后 的 哈 夫 曼 算法 图 10-16 第 三 次 合并 后 的 哈 夫 曼 算法 


在 第 三 次 合并 完成 后 , 最 低 权 的 两 棵 树 是 代表 i 和 空格 的 两 个 单 节点 树 。 图 10-17 指出 这 两 
棵 树 如 何 合并 成 根 在 T4 的 新 树 。 第 五 步 合 并 根 为 e。 和 T3 的 树 , 因为 这 两 棵 树 的 权 最 小 。 该 步 
结果 如 图 10-18 所 示 。 
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图 10-17 第 四 次 合并 后 的 哈 夫 曼 算法 图 10-18 第 五 次 合并 后 的 哈 夫 曼 算法 


最 后 , 将 两 个 剩 下 的 树 合并 得 到 图 10-11 所 示 的 最 优 树 。 图 10-19 画 出 这 棵 最 优 树 ， 其 根 
在 T6. 

我 们 将 概述 哈 夫 曼 算法 产生 最 优 代码 的 证 明 思路 , 详细 的 细节 将 留 作 练 习 。 首 先 , 由 反 证 法 
不 难 证 明 树 必然 是 满 的 , 因为 我 们 已 经 看 到 如 何 将 一 棵 不 满 的 树 改进 成 满 的 树 。 


Download at http:// www.pinb5i.com/ 


算法 设计 技巧 287 





Sh 
i 


aan 
oe © 
图 10-19 最 后 一 次 合并 后 的 哈 夫 曼 算 法 


其 次 , 必须 证 明 两 个 频率 最 小 的 字符 a 和 有 必然 是 两 个 最 深 的 节点 (虽然 其 他 节点 可 以 同样 
地 深 )。 这 通过 反 证 法 同样 容易 证 明 , 因为 如 果 a 或 8 不 是 最 深 的 节点 , 那么 必然 存在 某 个 y 是 
最 深 的 节点 ( 记 住 树 是 满 的 )。 如 果 a 的 频率 小 于 y, 那么 我 们 可 以 通过 交换 它们 在 树 中 的 位 置 而 
改进 权 的 值 。 

然后 可 以 论证 , 在 相同 深度 上 任意 两 个 节点 处 的 字符 可 以 交换 而 不 影响 最 优 性 。 这 说 明 , 总 
可 以 找到 一 棵 最 优 树 , 它 含有 两 个 最 不 经 常 出 现 的 符号 作为 兄弟 ; 因此 第 一 步 没有 错 , 是 成 立 的 。 

证 明 可 以 通过 归纳 法 论证 完成 。 当 树 被 合并 时 , 我 们 认为 新 的 字符 集 是 在 根 的 字符 上 。 于 
E, 在 例子 中 , 经 过 四 次 合并 以 后 , 我 们 可 以 把 字符 集 看 成 由 e 与 元 字符 T3 T4 Rm. XT 
是 证 明 最 巧妙 的 部 分 , 我 们 要 求 读者 补足 所 有 的 细节 。 

该 算法 是 贪 禁 算 法 的 原因 在 于 , 在 每 一 阶段 我 们 都 进行 一 次 合并 而 没有 进行 全 局 的 考虑 。 
我 们 只 是 选择 两 棵 最 小 的 树 。 

如 果 我 们 依 权 排 序 — MREP, 那么 , 由 于 在 决 不 会 有 超过 C 个 元 素 
的 优先 队列 上 将 进行 一 次 buildHeap, 2C -2 次 deleteMin, 和 C-2 次 insert, 因此 运行 时 间 为 
O(C logC)。 若 使 用 一 个 链表 简单 实现 该 队列 , 则 将 给 出 一 个 O(C*) 算 法 。 优 先 队列 实现 方法 的 
选择 取决 于 C 有 和 多大。 在 ASI 字符 集 的 典型 情况 下 ,C 是 足够 小 的 , 这 使 得 二 次 的 运行 时 间 
是 可 以 接受 的 。 在 这 样 的 应 用 中 , 实际 上 所 有 的 运行 时 间 都 将 花费 在 读 取 输入 文件 和 写 人 压缩 
文件 所 需要 的 磁盘 I[/ 〇 上 。 

有 两 个 细节 必须 要 考虑 。 首 先 , 在 压缩 文件 的 开头 必须 要 传送 编码 信息 , 否则 将 不 可 能 译 | 
码 。 做 这 件 事 有 几 种 方法 , 见 练习 10.4。 对 于 一 些小 文件 , 传送 编码 信息 表 的 代价 将 超过 压缩 中 
任何 可 能 的 节省 , 最 后 的 结果 很 可 能 是 文件 扩大 。 当 然 , 这 可 以 检测 到 且 原 文件 可 原样 保留 。 对 
于 大 型 文件 , 信息 表 的 大 小 是 无 关 紧 要 的 。 

第 二 个 问题 正如 所 描述 的 ,该 算法 是 一 个 两 趟 扫描 算法 。 第 一 趟 搜集 频率 数据 , 第 二 趟 进行 
编码 。 显 然 , 对 于 处 理 大 型 文件 的 程序 来 说 这 个 性 质 不 是 我 们 所 希望 的 。 另 外 的 一 些 做 法 在 参 
考 文献 中 做 了 介绍 。 

10.1.3 近似 装 箱 问题 

在 这 一 节 , 我 们 将 考虑 某 些 解决 装 箱 问题 (bin packing problem) 的 算法 。 这 些 算法 将 运行 得 
很 快 , 但 未 必 产 生 最 优 解 。 然 而 , 我 们 将 证 明 所 产生 的 解 距 最 
优 解 不 太 远 。 

BAG N 项 物品 , 大 小 为 s,s，,，…, sn， 所 有 的 大 小 都 满足 
0< 5 和 1。 问 题 是 要 把 这 些 物品 装 到 最 小 数目 的 箱子 中 去 ,已 
知 每 个 箱子 的 容量 是 一 个 单位 。 作 为 例子 , 图 10-20 显示 把 大 
小 为 0.2, 0.5, 0.4, 0.7, 0.1, 0.3, 0.8 的 一 列 物 品 最 优 装 箱 图 10-20 对 0.2,0.5,0.4,0.7， 
的 方法 。 0.1,0.3,0.8 的 最 优 装 箱 

有 两 种 版 本 的 装 箱 问 题 。 第 一 种 是 联机 装 箱 问 题 (on-line bin packing problem)。 在 这 种 问题 
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中 , 每 一 件 物品 必须 放 人 一 个 箱子 之 后 才能 处 理 下 一 件 物品 。 第 二 种 是 脱 机 装 箱 问 题 (off-line bin 
packing problem)。 在 一 个 脱 机 装 箱 算法 中 , 我 们 做 任何 事 都 需要 等 到 所 有 的 输入 数据 全 被 读 取 
之 后 才 进 行 。 联 机 算法 和 脱 机 算法 之 间 的 区 别 在 8.2 节 讨 论 过 。 
联机 算法 

需要 考虑 的 第 一 个 问题 是 , 一 个 联机 算法 即使 在 允许 无 限 计算 的 情况 下 是 否 实际 上 总 能 给 
出 最 优 的 解 。 我 们 知道 , 即使 允许 无 限 计算 , 联机 算法 也 必须 先 放 人 一 项 物品 然后 才能 处 理 下 一 
件 物品 并 且 不 能 改变 决定 。 

为 了 证 明 联机 算法 不 总 能 够 给 出 最 优 解 , 我们 将 给 它 一 组 特别 难 的 数据 来 处 理 。 考 虑 由 权 


为 >- 的 M 个 小 项 和 其 后 权 为 二 + e 的 M 个 大 项 构成 的 序列 1，, 其 中 0 <s< 0.01. BAR, 如 


果 我 们 在 每 个 箱子 中 放 一 个 小 项 再 放 一 个 大 项 ,那么 这 些 项 物品 可 以 放 入 到 M 个 箱子 中 去 。 候 
设 存在 一 个 最 优 联机 算法 A 可 以 进行 这 项 装 箱 工作 。 考 虑 算法 A 对 序列 1 的 操作 ,该 序列 只 由 
BUS — e 的 M 个 小 项 组 成 。1, 是 可 以 装 入 FM/21 个 箱子 中 的 。 然 而 , 由 于 A 对 序列 1 的 处 理 
结果 必然 和 对 1, 的 前 半 部 分 处 理 结果 相同 ,而 万 前 半 部 分 的 输入 跟 /的 输入 完全 相同 , 因此 A 
将 把 每 一 项 物品 放 到 一 个 单独 的 箱子 内 。 这 说 明 A 将 使 用 1, 最 优 解 的 两 倍 多 的 箱子 。 这 样 我 们 
证 明了 , 对 于 联机 装 箱 问题 不 存在 最 优 算法 。 

上 面 的 论述 指出 , 联机 算法 从 不 知道 输入 何 时 会 结束 , 因此 它 提供 的 任何 性 能 保证 必须 在 整 
个 算法 的 每 一 时 刻 成 立 。 如 果 我 们 遵循 前 面 的 策略 , 那么 我 们 可 以 证 明 下 列 定理 。 


定理 10.1 存在 使 得 任意 联机 装 箱 算法 至 少 使 用 人 最 优 箱子 数 的 输入 。 

证 明 : 

假设 情况 相反 , 为 简单 起 见 并 设 M 是 偶数 。 考 虑 任 一 运行 在 上 面 输 入 序列 D, 上 的 联机 算法 
A. 注意, 该 序列 由 M 个 小 项 后 接 M 个 大 项 组 成 。 让 我 们 考虑 该 算法 在 处 理 第 M 项 后 都 做 了 
什么 。 设 A 已 经 用 了 6 个 箱子 。 在 算法 的 这 一 时 刻 , 箱子 的 最 优 个 数 是 M2, 因为 我 们 可 以 在 


每 个 箱子 里 放 人 两 件 物品 。 于 是 我 们 知道 , 根据 优 于 3 的 性 能 保证 的 假设 , 207M <4, 
现在 考虑 在 所 有 的 物品 都 被 装 箱 后 算法 A 的 性 能 。 在 第 b 个 箱子 之 后 开辟 的 所 有 箱子 的 每 
箱 恰好 包含 一 项 物品 , 因为 所 有 小 物品 都 被 放 在 了 前 b 个 箱子 中 , 而 两 个 大 项 物品 又 装 不 进 一 个 
箱子 中 去 。 由 于 前 6 个 箱子 每 箱 最 多 能 有 两 项 物品 ,而 其 余 的 箱子 每 箱 都 有 一 项 物品 ,因此 我 们 
看 到 , 将 2M 项 物品 装 箱 将 至 少 需 要 2M - b 个 箱子 。 但 2M 项 物品 可 以 用 M 个 箱子 最 优 装 箱 ， 


因此 我 们 的 性 能 保障 保证 得 到 (2M - b)/M< $, 
第 一 个 不 等 式 意味 着 6/M <$, 而 第 二 个 不 等 式 意味 着 b/M >F, REFAN. Hk, 没 


有 联机 算法 能 够 保证 使 用 小 于 仿 的 最 优 装 箱 数 完成 装 箱 。 a 
有 三 种 简单 算法 保证 所 用 的 箱子 数 不 多 于 二 倍 的 最 优 装 箱 数 。 也 有 颇 多 更 为 复杂 的 算法 能 
够 得 到 更 好 的 结果 。 
下 项 适合 算法 
大 概 最 简单 的 算法 就 属 下 项 适合 (next fit) 算 法 了 。 当 处 理 任何 一 项 物品 时 ,我 们 检查 看 它 是 
否 还 能 装 进 刚刚 装 进 物品 的 同一 个 箱子 中 去 。 如 果 能 够 装 进去 , 那么 就 把 它 放 入 该 箱 中 ; 否则 ， 
就 开辟 一 个 新 的 箱子 。 这 个 算法 实现 起 来 出 奇 地 简单 ,而 且 还 以 线性 时 间 运 行 。 图 10-21 显示 与 
图 10-20 相同 的 输入 所 得 到 的 装 箱 过 程 。 
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下 项 适合 算法 不 仅 编 程 简单 而且 它 的 最 坏 情形 的 行为 也 容易 分 析 。 

定理 10.2 $ M 是 将 一 列 物品 工装 箱 所 需 的 最 优 装 箱 数 , 则 下 项 适合 算法 所 用 箱 数 决 不 超 
过 2M 个 箱子 。 存 在 一 些 顺序 使 得 下 项 适合 算法 用 箱 数 达 2M - 2 个 。 

证 明 : 

考虑 任何 相 邻 的 两 个 箱子 B MB +i B 和 B;;1 中 所 有 物品 的 大 小 之 和 必然 大 于 1, 否则 所 
有 这 些 物品 就 会 全 部 放 人 B, 中 。 如 果 我 们 将 该 结果 用 于 所 有 相 邻 的 两 个 箱子 , BA, 顶 多 有 一 
半 的 空间 闲置 。 因 此 , 下 项 适合 算法 最 多 使 用 二 倍 的 最 优 箱 子 数 。 

为 说 明 这 个 比率 2 是 精确 的 , 设 N 项 物品 大 小 当 i 是 奇数 时 s; =0.5, 而 当 i 是 偶数 时 sw = 
2/N。 设 N 可 被 4 整除。 图 10-22 所 示 的 最 优 装 箱 由 含有 2 件 大 小 为 0.5 的 物品 的 NA 个 箱子 
和 含有 NZ2 件 大 小 为 2/N 物品 的 一 个 箱子 组 成 , 总数 为 (N/4) + 1。 图 10-23 表示 下 项 适合 算 
法 使 用 N/2 个 箱子 。 因 此 ,下 项 适合 算法 可 以 用 到 几乎 二 倍 于 最 优 装 箱 数 的 箱子 。 a 





图 10-21 Xf 0.2,0.5,0.4,0.7,0.1,0.3, 图 10-22 X10.5,2/N,0.5,2/N,0.5,2/N ,-- 
0.8 的 下 项 适合 算法 的 最 优 装 箱 方法 


首次 适合 算法 

虽然 下 项 适合 算法 有 一 个 合理 的 性 能 保证 , HE, 它 的 效果 在 实践 中 却 很 差 , 因为 在 不 需要 
开辟 新 箱子 的 时 候 它 却 开辟 了 新 箱子 。 在 前 面 的 样 例 运行 中 , 本 可 以 把 大 小 0.3 的 物品 放 入 B, 
或 B; 而 不 是 开辟 一 个 新 箱子 。 

首次 适合 算法 (first fit) 的 策略 是 依 序 扫 找 这些 箱子 并 把 新 的 一 项 物品 放 入 足 能 盛 下 它 的 第 
一 个 箱子 中 。 因 此 , 只 有 当前 面 那 些 放 置物 品 的 箱子 已 经 容 不 下 当前 物品 的 时 候 , 我 们 才 开辟 一 
个 新 箱子 。 图 10-24 指出 对 我 们 的 标准 输入 进行 首次 适合 算法 的 装 箱 结果 。 
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10-23 34 0.5,2/N,0.5,2/N,0.5,2/N ,… 图 10-24 Xt 0.2,0.5,0.4,0.7,0.1, 
的 下 项 适合 装 箱 法 0.3,0.8 的 首次 适合 装 箱 


实现 首次 适合 算法 的 一 个 简单 方法 是 通过 顺序 扫描 箱子 序列 处 理 每 一 项 物品 , 这 将 花费 
OCN?) AAT RELA O(N log N) 运 行 来 实现 首次 适合 算法 ; 我 们 把 它 留 作 练习 。 

略 加 思索 读者 即 可 明白 , 在 任 一 时 刻 最 多 有 一 个 箱子 其 空 出 的 部 分 大 于 箱子 的 一 半 , 因为 若 
有 第 二 个 这 样 其 空 大 于 一 半 的 箱子 , 则 它 的 内 容 物 就 会 装 到 第 一 个 这 样 的 箱子 中 了 。 因 此 我 们 
可 以 立即 断言 : 首次 适合 算法 保证 其 解 最 多 包含 最 优 装 箱 数 的 二 售 。 

男 一 方面 , 我 们 在 证 明 下 项 适合 算法 性 能 的 界 时 所 用 到 的 最 坏 情 况 对 首次 适合 算法 不 适用 。 
因此 ,人 们 可 能 要 问 : 是 否 能 够 证 明 更 好 的 界 呢 ? 答案 是 肯定 的 , 不 过 证 明 要 复杂 。 
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定理 10.3 4 M 是 将 一 列 物品 1 装 箱 所 需要 的 最 优 箱子 数 , 则 首次 适合 算法 使 用 的 箱子 数 
决 不 多 于 | EM] 。 存 在 使 得 首次 适合 算法 使 用 | EM - D | 个 箱子 的 序列 。 
证 明 : 


参阅 本 章 末 尾 的 参考 文献 。 = 

使 首次 适合 算法 得 出 和 前 面 定 理 指出 的 结果 几乎 一 样 差 的 例子 如 图 10-25 所 示 。 图 中 的 输 
入 由 6M 个 大 小 为 二 + e 项 后 跟 6M 个 大 小 为 二 + 的 项 以 及 接续 其 后 的 6M 个 大 小 为 二 + 的 
项 组 成 。 一 种 简单 的 装 箱 办 法 是 将 每 种 大 小 的 各 一 项 物品 装 到 一 个 箱子 中 , 总 共 需 要 6M 个 箱 
子 。 如 用 首次 适合 算法 , 则 需要 10M 个 箱子 。 

当 首次 适合 算法 对 大 量 其 大 小 均匀 分 布 在 0 和 1 之 间 的 物品 进行 运算 时 , 经 验 结果 指出 , 首 
次 适合 算法 用 到 大 约 比 最 优 装 箱 方法 多 20% 的 箱子 。 在 许多 情况 下 , 这 是 完全 可 以 接 
受 的 。 | 
最 佳 适合 算法 

我 们 将 要 考查 的 第 三 种 联机 策略 是 最 佳 适合 (best fit) 装 箱 法 。 该 算法 不 是 把 一 项 新 物品 放 
入 所 发 现 的 第 一 个 能 够 容纳 它 的 箱子 , 而 是 放 到 所 有 箱子 中 能 够 容纳 它 的 最 满 的 箱子 中 。 典 型 
的 装 箱 方法 如 图 10-26 所 示 。 
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10-25 ”首次 适合 算法 使 用 10M 个 而 图 10-26 对 0.2,0.5,0.4,0.7,0.1， 
不 是 6M 个 箱子 的 情形 0.3,0.8 的 最 佳 适 合算 法 


注意 , 大 小 为 0.3 的 项 不 是 放 在 B» MERET B3, 此 时 它 正好 把 B. 填 满 。 由 于 我 们 现在 
对 箱子 进行 更 细致 的 选择 ,因此 人 们 可 能 认为 算法 性 能 保障 会 有 所 改善 。 但 是 情况 并 非 如 此 , 因 
为 一 般 的 坏 情 形 是 相同 的 。 最 佳 适合 算法 决 不 会 超过 最 优 算法 的 约 1.7 倍 , 而 且 存 在 一 些 输入 ， 
对 于 这 些 输入 该 算法 (几乎 ) 达 到 这 个 界限 。 不 过 , 最 佳 适合 算法 编程 还 是 简单 的 , 特别 是 当 需 要 
O(N log N) 算 法 的 时 候 , 而 且 该 算法 对 随机 的 输入 确实 表现 得 更 好 。 
脱 机 算法 

”如 果 我 们 能 够 观察 全 部 物品 以 后 再 算出 答案 , 那么 我 们 应 该 会 做 得 更 好 。 事 实 确实 如 此 , 由 

于 我 们 通过 彻底 的 搜索 最 终 能 够 找到 最 优 装 箱 方法 , 因此 我 们 对 联机 情形 就 已 经 有 了 一 个 理论 
上 的 改进 。 

所 有 联机 算法 的 主要 问题 在 于 将 大 项 物品 装 箱 困难 ,特别 是 当 它 们 在 输入 的 后 期 出 现 的 时 
候 。 围 绕 这 个 问题 的 自然 方法 是 将 各 项 物品 排序 , 把 最 大 的 物品 02 1 
放 在 最 先 。 此 时 我 们 可 以 应 用 首次 适合 算法 或 最 佳 适 合算 法 , 分 | “ 

0.5 

(best fit decreasing). FA 10-27 指出 在 我 们 的 例子 中 这 会 产生 最 优 B, B, | 
解 (尽管 在 一 般 的 情形 下 显然 未 必 会 如 此 )。 图 10-27 对 0.8,0.7,0.5,0.4， 


别 得 到 首次 适合 递减 算法 (first fit decreasing) 和 最 佳 适合 递减 算法 
本 小 节 将 介绍 首次 适合 递减 算法 。 对 于 最 佳 适合 递减 算法 ， 0.3,0.2,0.1 的 首次 适合 算法 
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结果 几乎 是 一 样 的 。 由 于 存在 物品 大 小 不 是 互 异 的 可 能 , 因此 有 些 作 者 更 愿意 把 首次 适合 递减 
算法 叫做 首次 适合 非 增 算法 (first fit nonincreasing)。 我 们 将 沿用 原始 的 名 称 。 不 失 一 般 性 , 我 们 
还 要 假设 输入 数据 的 大 小 已 经 被 排序 。 

我 们 能 够 做 的 第 一 个 评注 是 , 首次 适合 算法 使 用 10M 个 而 不 是 6M 个 箱子 的 坏 情 形 在 物品 
项 被 排序 的 情况 下 不 会 再 发 生 。 我 们 将 证 明 , 如 果 一 种 最 优 装 箱 法 使 用 M 个 箱子 , 那么 首次 适 
合 递减 算法 使 用 的 箱子 数 决 不 超过 (4M + 1)73。 


这 个 结果 依赖 于 两 个 观察 结论 。 首 先 ， 所 有 权重 大 于 -3 的 项 将 被 放 人 前 M 个 箱子 内 。 这 意 


味 着 , 在 这 M 个 箱子 之 外 的 其 余 箱子 中 所 有 各 项 的 权重 顶 多 是 3 。 第 二 个 结论 是 , 在 其 余 箱 子 
中 物品 的 项 数 最 多 可 以 是 M - 1。 把 这 两 个 结果 结合 起 来 我 们 发 现 , 其 余 的 箱子 最 多 可 能 需要 
[(M- D 431 个 。 现 在 我 们 证 明 这 两 个 观察 结果 。 

引 理 10.1 $ NN 项 物品 的 输入 大 小 (以 递减 顺序 排序 ) 分 别 为 s,s ,… sv 并 设 最 优 装 箱 方 
法 使 用 M 个 箱子 。 那 么 , 首次 适合 递减 算法 放 到 M 个 箱子 之 外 的 其 余 箱子 中 的 所 有 物品 的 大 
小 最 多 为 了。 

证 明 : 

设 第 i 项 物品 是 放 入 第 M + 1 个 箱子 中 的 第 一 项 。 需 要 证 明 sien 。 我 们 将 使 用 反 证 法 证 
明 这 个 结论 , Bs, >t. 


由 于 这 些 物品 的 大 小 是 以 排 好 序 的 顺序 排列 的 , 因此，s1,s2,…,s;_1> 广 。 由 此 得 知 , 所 有 
的 箱子 B, Eis , Bm 每 个 最 多 只 有 两 项 物品 。 
考虑 在 第 i - 1 项 物品 被 放 人 一 个 箱子 后 但 第 i 项 物品 尚未 放 人 时 系统 的 状态 。 现 在 要 证 明 


(ZE s> ARBET ) 前 M 个 箱子 排列 如 下 : 首先 是 有 些 箱子 内 恰好 有 一 项 物品 ,然后 剩 下 的 箱 


子 内 有 两 项 物品 。 

设 有 两 个 箱子 B, AB, 使 得 1 7 y M, B, 有 两 项 而 B, 有 一 项 。 令 x, M r 是 B, 中 的 
两 项 物品 , 并 令 y, 是 B, PORE UIS. mss 因为 ri 被 放 在 较 前 的 箱子 中 。 根 据 类 似 的 
推理 >s EE, r,t x2 之 y+ so 这 意味 着 s 是 应 该 可 以 放 在 B, 中 的 。 根 据 我 们 的 假设 ， 
这 是 不 可 能 的 。 因 此 , 如 果 s >, 那么 在 我 们 试图 处 理 s, 时 , 则 安排 前 M 个 箱子 使 得 前 ; 个 箱 
子 各 装 一 项 物品 , 而 后 M -j 个 箱子 各 放 两 项 物品 。 

为 了 证 明 该 引 理 , 我 们 将 证 明 不 存在 将 所 有 物品 装 人 M 个 箱子 的 方法 , 这 和 引 理 的 假设 
矛盾 。 

显然 , 在 s1,s2,…,s 中 使 用 任何 算法 都 没有 两 项 可 以 放 和 一 个 箱子 中 , 如 果 能 放 , 那么 首次 
适合 算法 也 能 放 。 我 们 还 知道 , 首次 适合 算法 尚未 把 大 小 为 5 ,1,5+2,…,s; 中 的 任 一 项 放 入 前 
个 箱子 中 , 因此 它们 都 不 能 再 往 前 j 个 箱子 中 放 。 这 样 ,在 任何 装 箱 方法 中 , 特别 是 最 优 装 箱 方 
法 中 , 必然 存在 j 个 箱子 不 包含 这 些 项 。 由 此 可 知 ,大 小 为 5 ,1,5+2,…,s;-1 的 项 必然 包含 在 
M - j 个 箱子 的 集合 中 , 综合 前 面 的 讨论 ， 于 是 这 些 项 的 总 数 为 2(M- j). 


O ”回顾 首次 适合 算法 把 这 些 元 素 装 入 M -j 个 箱子 并 在 每 个 箱子 中 放 人 两 项 物品 。 因 此 有 2( M - j) 项 。 
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注意 , MR s; >+, 那么 只 要 证 明 s; 没有 方法 放 人 这 M 个 箱子 中 的 任 一 个 中 去 , 该 引 理 的 


证 明 也 就 完成 了 。 x. 显然 它 不 能 放 人 这 j 个 箱子 中 去 , 因为 假如 能 放 人 , 那么 首次 适合 算 
PAB IX AM. HERA FM M - j 个 箱子 之 一 中 需要 把 2(M -7J)+1 项 物品 分 发 到 这 


M — /个 箱子 中 。 因 此 , 某 个 箱子 就 不 得 不 装 人 三 件 物品 ,而 它们 中 的 每 一 件 都 大 于 广 , 很 明显 ， 
这 是 不 可 能 的 。 

这 与 所 有 大 小 的 物品 都 能 够 装 入 M 个 箱子 的 事实 矛盾 ,因此 开始 的 假设 肯定 是 不 正确 的 ， 
AM sc o " 

引 理 10.2” 放 人 其 余 箱 子 中 的 物品 的 个 数 最 多 是 M - 1。 

证 明 : 

假设 放 入 其 余 箱 子 中 的 物品 至 少 有 M 个 。 我 们 知道 D s <M, 因为 所 有 的 物品 都 可 装 
人 M 个 箱子 。 设 对 于 1 三 ;三 M, B 由 总 重 W, 装 满 , 设 前 M 个 其 余 箱 子 中 的 物品 大 小 为 zi， 
zx2，,…,zMo 此 时 ,由 于 前 M 个 箱子 中 的 项 加 上 前 M 个 其 余 箱 子 中 的 项 是 所 有 项 物品 的 一 个 子 集 ， 
于 是 


N M M 
2:521 2,W;* 2,1; > 2, (W; + zj) 
j=1 j=l 


现在 W; + zi > 1, 因为 否则 对 应 于 z; eo 中 ,因此 


N 


> jM 


dk N 项 物品 能 被 装 入 M 个 箱子 中 ， 则 上 式 不 可 能 成 立 。 因 此 ,最 多 只 能 有 M -1 项 其 作 
的 物品 。 E 

定理 10.4 令 M 是 将 物品 集 ! 装 箱 所 需 的 最 优 箱子 数 , 则 首次 适合 递 碱 算法 所 用 箱子 数 决 
不 超过 (4M + 1)/3。 

证 明 : 

存在 M - 1 项 其 余 箱子 中 的 物品 , 其 大 小 至 多 为 了 。 因 此 , 最 多 可 能 存在 [(M - 1)[3] 个 其 
余 的 箱子 。 从 而 , 由 首次 适合 递减 算法 使 用 的 箱子 总 数 最 多 为 [4M -1)BI<(4M+1)3. NI 

对 于 首次 适合 递减 算法 和 下 项 适合 递减 算法 都 能 够 证 明 一 个 紧 得 多 的 界 。 

定理 10.5 4 M 是 将 物品 集 1 装 箱 所 需 的 最 优 箱 数 , 则 首次 适合 递 碱 算法 所 用 箱 数 决 不 超 


yt M+ 4。 此 外 , FEER BE UGE MARAE M 个 箱子 的 序列 。 
SOM 
上 界 需 要 非常 复杂 的 分 析 。 下 界 可 以 通过 下 述 序列 展示 : 先是 大 小 为 > +e 的 6M Si, 其 后 


是 大 小 为 地 +2e 的 6M X, 接着 是 二 +e 的 6M H, 最 后 是 大 小 为 地 -2e 的 12M 项 物品 。 图 
10-28 指出 最 优 装 箱 需 要 9M IAT. 而 首次 适合 递减 算法 需要 11M — E 
在 实践 中 , 首次 适合 递减 算法 的 效果 非常 好 。 如 果 大 小 在 单位 区 间 均 名 选择 , 那么 其 余 箱子 


的 期 望 个 数 为 6 (/ M)。 装 箱 算 法 是 简单 贪 禁 试探 算法 能 够 给 出 好 结果 的 一 个 好 
例子 。 
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图 10-28 首次 适合 递减 算法 使 用 LIM 个 箱子 但 只 有 
OM 个 箱子 就 足够 完成 装 箱 


10.2 分 治 算法 


用 于 设计 算法 的 另 一 种 常用 技巧 为 分 治 算法 (divide and conquer)。 分 治 算法 由 两 部 分 组 成 : 

分 (divide) : 递归 解决 较 小 的 问题 (当然 , 基本 情况 除外 )。 

治 (conquer): 然后 从 子 问 题 的 解构 建 原 问 题 的 解 。 

传统 上 , 在 正文 中 至 少 含有 两 个 递归 调用 的 例 程 叫做 分 治 算法 , 而 正文 中 只 含 一 个 递归 调用 
的 例 程 不 是 分 治 算法 。 一 般 坚 持 子 问题 是 不 相交 的 ( 即 基本 上 不 重 伙 )。 让 我 们 回顾 课文 涉及 到 
的 某 些 递 归 算 法 。 

MIB SLE. E242 节 我 们 兄 过 最 大 于 序 淹 和 问题 的 一 个 O(N log N) 
解 。 在 第 4 章 , 我 们 看 到 一 些 线性 时 间 的 树 遍 历 方法 。 在 第 7 章 , 我 们 见 过 分 治 算法 的 经 典 例子 
(归并 排序 和 快速 排序 ), 它们 分 别 有 O(N log N) 的 最 坏 情形 以 及 平均 情形 的 时 间 界 。 

我 们 还 看 到 过 一 些 递归 算法 的 若干 例子 , 在 分 类 上 它们 很 可 能 不 算 作 分 治 算法 , 而 只 是 化 简 
到 一 个 更 简单 的 情况 。 在 1.3 节 , 我 们 看 到 一 个 简单 的 显示 一 个 数 的 例 程 。 在 第 2 章 , 我 们 使 用 
递归 执行 有 效 的 取 短 运算 。 在 第 4 章 , 我 们 考察 了 二 又 查找 树 一 些 简单 的 搜索 例 程 。 在 6.6 节 ， 
我 们 见 过 用 于 合并 左 式 堆 的 简单 的 递归 。 在 7.7 节 给 出 了 一 个 花费 线性 平均 时 间 解 决 选择 问题 
的 算法 。 第 8 章 递归 地 写 出 了 不 相交 集 的 find 操作 。 第 9 章 指出 以 Dijkstra 算法 重新 找 出 最 短 
路 径 的 一 些 例 程 以 及 对 图 进行 深度 优先 搜索 的 其 他 过 程 。 这 些 算法 实际 上 都 不 是 分 治 算法 , A 
为 只 进行 了 一 个 递归 调用 。 

我 们 在 2.4 节 还 看 到 计算 斐 波 那 契 数 的 很 差 的 递归 例 程 。 我 们 可 以 称 其 为 分 治 算法 , 但 它 的 
效率 太 低 了 , 因为 问题 实际 上 根本 没有 被 分 割 。 

EAN, 我 们 将 看 到 分 治 算法 范例 更 多 的 例子 。 第 一 个 应 用 是 计算 几何 中 的 问题 。 给 定 平 
面 上 的 N 个 点 , 我 们 将 证 明 最 近 的 一 对 点 可 以 在 O(N log N) 时 间 找 到 。 本 章 后 面 的 一 些 练习 描 
述 了 计算 几何 中 另外 一 些 问题 , 它们 可 以 由 分 治 算法 求解 。 本 节 其 余部 分 介绍 极其 有 趣 但 主要 
是 理论 上 的 一 些 结果 。 我 们 提供 一 个 算法 以 O(N) 最 坏 情 形 时 间 解 决 选 择 问题 。 我 们 还 要 证 明 
可 以 用 oC N2) 次 操作 将 2 个 N- 比特 位 的 数 相 乘 并 以 o(N3) 次 操作 将 两 个 N x N 矩阵 相 乘 。 不 幸 
的 是 ,虽然 这 些 算法 最 坏 情形 时 间 界 比 传统 算法 更 好 , 但 除了 非常 巨大 的 输入 外 它们 都 并 不 
实用 。 

10.2.1 分 治 算法 的 运行 时 间 

我 们 将 要 看 到 的 所 有 有 效 的 分 治 算法 都 是 把 问题 分 成 一 些 子 问题 ， 每 个 子 问 题 都 是 原 问 题 
的 一 部 分 ,然后 进行 某 些 附加 的 工作 以 算出 最 后 的 答案 。 作 为 一 个 例子 , 我 们 已 经 看 到 归并 排序 
对 两 个 问题 进行 运算 , 每 个 问题 均 为 原 问题 大 小 的 一 半 , 然后 用 到 O(N) 的 附加 工作 。 由 此 得 到 
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运行 时 间 方 程 ( 带 有 适当 的 初始 条 件 ) 
T(N)=2T(N/2)+ OCN) 
我 们 在 第 7 章 看 到 , 该 方程 的 解 为 O(N log N)。 下 面 的 定理 可 以 用 来 确定 大 部 分 分 治 算法 的 运 
行 时 间 。 
定理 10.6 方程 T(N) - aT(N7b) + O(N ) HRA: 
O(N!“ ) a ap 
rov docte BGa=t 
O(N) Z acr 
其 中 a 宇 1 以 及 b>1。 
证 明 : 
根据 第 7 章 归 并 排序 的 分 析 , 假设 N Jo WE; FR, 可 令 N=". E N= b ' & 
NE = (p")* = om = p = (i), 假设 T(1)=1, 并 忽略 8(N*) 中 的 常数 因子 , WA 
T(6")=aT(b™ ')+()* 
如 果 用 a" RA, 则 得 到 方程 


T(s") - T(b” ') HJE (10.3) 
a” a" ^ 1 a ° 
我 们 可 以 对 m. 的 其 他 值 应 用 该 方程 ， 得 到 
m-2 m -3 m-2 
ren. rien, " (10.5) 
i 0 k | 1d 
n ) -TQ ) 3 ie | (10.6) 


使 用 将 (10.3) 到 (10.6) 的 各 个 方程 累加 起 来 的 标准 技巧 , 等 号 左边 的 所 有 项 实际 上 与 等 号 
右边 的 前 一 项 相 消 , 由 此 得 到 





TU) 21-4 S pai (10.7) 
a i-1 2 
- | (10.8) 
因此 
T(N) = TG") = a” Y? E (10.9) 





如 果 a 2 5^, 那么 和 就 是 一 个 公 比 小 于 1 的 几何 级 数 。 由 于 无 穷 级 数 的 和 收敛 于 一 个 常数 , 因此 
该 有 限 的 和 也 以 一 个 常数 为 界 , 从 而 方程 (10.10) 成 立 : 
TI(N)=O(a")=O(akgN)=O(Negy ) (10.10) 
如 果 a = 5, 那么 和 中 的 每 一 项 均 为 1。 由 于 和 含有 1 + logsN 项 而 a = KA loga=k, 于 是 
T(N) = O(a"log,N) = O(N'S?log,N) = O( N*log,N) 一 


= O( MlogN) (10.11) 
最 后 , 如 果 a <b, 那么 该 几何 级 数 中 的 项 都 大 于 1, 1.2.3 节 中 的 第 二 个 公式 成 立 。 我 们 得 到 
TEN) = a" FAYED oan ay EONO — (0.12 
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定理 的 最 后 一 种 情形 得 证 。 a 
作为 一 个 例子 , 归并 排序 有 a=5b=2 且 =1。 第 二 种 情形 成 立 , 因此 答案 为 O(N log N). fn 
果 我 们 求解 三 个 问题 , 每 个 问题 都 是 原始 大 小 的 一 半 , 使 用 O(N) 的 附加 工作 将 解 联合 起 来 , 则 
a=3,6=2 且 =1。 此 处 情形 1 成 立 , 于 是 得 到 界 O(Nee3) = O(N'-”)。 求 解 三 个 一 半 大 小 的 问 
题 但 需要 O(N?) 工 作 以 合并 解 的 算法 的 运行 时 间 将 是 ON), 因为 此 时 第 三 种 情形 成 立 。 
有 两 个 重要 的 情形 定理 10.6 没有 包括 。 我 们 再 叙述 两 个 定理 , 但 把 证 明 留 作 练 习 。 定 理 
10.7 推广 了 前 面 的 定理 。 
定理 10.7. 方程 T(N) - aT(N/b) + O(N log’N) HRA: 
O(N") a >it 
T(N) oat IN) azt 
O(N*log’N) alh 
其 中 a21, b>1 H p20. 
定理 10.8 mF 25. < 1, 则 方程 T(N) =>)" TaN) + O(N) WRH TON) = 
O(N). 
10.2.2 最 近 点 问题 
我 们 第 一 个 问题 的 输入 是 平面 上 的 点 列 Po WR pj= (ziy) p= (r2, y22, 那么 p, 和 
p; 间 的 欧 几 里 得 距离 为 [(zi 7 2^ + (yi 7 22 六。 我 们 需要 找 出 一 对 最 近 的 点 。 有 可 能 两 个 
点 位 于 相同 的 位 置 ; 在 这 种 情形 下 这 两 个 点 就 是 最 近 的 , 它们 的 距离 为 零 - 
如 果 存 在 N 个 点 , 那么 就 存在 N(N 一 1) 人 2 对 点 间 的 距离 。 我 们 可 以 检查 所 有 这 些 距离 , 得 
到 一 个 很 短 的 程序 , 不 过 这 是 一 个 花费 O(N?) 的 算法 。 由 于 这 种 方法 是 一 种 穷尽 搜索 的 方法 ， 
因此 我 们 应 该 期 望 做 得 更 好 一 些 。 
假设 平面 上 这 些 点 已 经 按照 x 的 坐标 排 过 序 , 最 多 这 只 不 过 是 在 最 后 的 时 间 界 上 仅 多 加 了 


O(N log N) 而 已 。 由 于 将 证 明 整 个 算法 的 O(N log N) 界 , 因此 从 复杂 度 的 观点 来 看 , 该 排序 基 
本 上 没有 增加 时 间 消 耗 的 量 级 。 


图 10-29 画 出 一 个 小 的 样本 点 集 P。 既 然 这 些 点 已 按 z 坐标 排序 , 那么 就 可 以 划一 条 想象 
HER, 把 点 集 分 成 两 半 : P, 和 Pr。 这 做 起 来 当然 简单 。 现 在 我 们 得 到 的 情形 几乎 和 我 们 在 
2.4.3 节 的 最 大 子 序列 和 问题 中 见 过 的 情形 完全 相同 。 最 近 的 一 对 点 或 者 都 在 P, 中 , 或 者 都 在 
PrP, 或 者 一 个 点 在 Pi 中 而 另 一 个 在 Pr 中 。 可 以 将 这 三 个 距离 分 别 叫 做 d, dg 和 dc。 图 
10-30 显 示 出 点 集 的 划分 和 这 三 个 距离 。 | 


图 10-29 一 个 小 规模 的 点 集 
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我 们 可 以 递归 地 计算 di 和 dk。 然 后 , 问题 就 是 计算 d。 由 于 想 要 一 个 O(N log N) 的 解 ， 
因此 必须 能 够 仅仅 多 花 O(N ) 的 附加 工作 计算 出 d.:。 我 们 已 经 看 到 ,如果 一 个 过 程 由 两 个 一 半 
大 小 的 递归 调用 和 附加 的 O(N) 工 作 组 成 , 那么 总 的 时 间 将 是 O(N log N)。 

A> §=min(d, ,dg)。 我 们 的 第 一 个 观察 结论 是 , WR dc 对 8 有 所 改进 , 那么 只 需 计算 dco 
如 果 dc 是 这 样 的 距离 , 则 决定 dc 的 两 个 点 必然 在 分 割 线 的 8 距离 之 内 ; 我 们 将 把 这 个 区 域 叫做 
一 条 带 (strip)。 如 图 10-31 所 示 , 这 个 观察 结论 限制 了 需要 考虑 的 点 的 个 数 (此 例 中 的 S= dp). 


d, 
— d, pi P. 
° Va | P: "ny 
| P4 
| Ps 
Pe | pr 
«— 6 —«— 6 — 
10-30 被 分 成 P, 和 Pi 的 点 集 P; 10-31 双 道 带 区 域 , 包含 对 于 dc 带 
图 中 显示 了 最 短 的 距离 所 考虑 的 全 部 点 


有 两 种 方法 可 以 用 来 计算 dc。 对 于 均匀 分 布 的 大 型 点 集 , 预计 位 于 该 带 中 的 点 的 个 数 是 非常 
少 的 。 事 实 上 , 容易 论证 平均 只 有 O(V N) 个 点 在 这 个 带 中 。 因 此 , 我 们 可 以 以 O(N) 时 间 对 这 些 
点 进行 蛮 力 计算 。 图 10-32 中 的 伪 代 码 实现 该 方法 , 其 中 按照 Java 语 言 的 约定 点 的 下 标 从 0 开始 。 


// Points are all in the strip 


for( i = 0; i < numPointsInStrip; i++ ) 


for( j = i + 1; j < numPointsInStrip; j++ ) 
ô = dist(p;, pj); 





10-32 min(ó, dc) f 8: 7E 8 


在 最 坏 情形 下 , 所 有 的 点 可 能 都 在 这 条 带 状 区 域内 , 因此 这 种 方法 不 总 能 以 线性 时 间 运 行 。 
我 们 可 以 用 下 列 的 观察 结果 改进 这 个 算法 : 确定 dc 的 两 个 点 的 y 坐标 相差 最 多 是 5。 否则， 
dc >>6。 设 带 中 的 点 按照 它们 的 y 坐标 排序 。 因 此 , WR p; Ap, 的 y 坐标 相差 大 于 86, 那么 我 们 
可 以 继续 处 理 p;;1。 这 个 简单 的 修改 在 图 10-33 中 实现 。 


// Points are all in the strip and sorted by y-coordinate 


for( i = 0; i < numPointsInStrip; i++ ) 
for( j = i + 1; j < numPointsInStrip; j++ ) 
if( p, and pj's y-coordinates differ by more than ó ) 


break; // Go to next pj. 
else 


if( dist(p, p) < 8) 
ô = dist(p;, pj); 





图 10-33 min(6,dc) 的 精 化 计算 
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这 个 附加 的 测试 对 运行 时 间 有 着 显著 的 影响 , 因为 对 于 每 一 个 p;, 在 p; M p; 坐标 相 
差 大 于 5 并 被 迫 退 出 内 层 for 循环 以 前 , 只 有 少数 的 点 p; 被 > | 

考查 。 例 如 , 图 10-34 显示 对 于 点 ps 只 有 两 个 点 Ps 和 Ps 落 d, pio | oP, 
在 垂直 距离 $ 之 内 的 带 状 区 域 中 。 — 

对 于 任意 的 点 p, 在 最 坏 的 情形 下 最 多 有 7 个 点 p 被 考 
虑 。 这 是 因为 这 些 点 必定 落 在 该 带 状 区 域 左 半 部 分 的 8x5 方 
块 内 或 者 该 带 状 区 域 右 半 部 分 的 8X6 方块 内 。 另 一 方面 , 在 
每 个 5x8 方块 内 的 所 有 的 点 至 少 分 离 6。 在 最 坏 的 情形 下 ， 
每 个 方块 包含 4 个 点 , 每 个 角 上 一 个 点 。 这 些 点 中 有 一 个 是 
b, 最 多 还 剩 下 7 个 点 要 考虑 。 最 坏 情形 的 状况 如 图 10-35 所 图 10-34 在 第 二 个 for 循环 内 只 有 

示 。 注 意 , 虽然 ps 和 pr1 有 相同 的 坐标 , 但 它们 可 以 是 不 同 p, 和 ps BAR 
的 点 。 对 于 具体 的 分 析 来 说 , 唯一 重要 的 是 Mx 2X 的 矩形 区 域 中 的 点 的 个 数 为 O), 这 显然 很 
清楚 。 

因为 对 于 每 个 p 最 多 有 7 个 点 要 考虑 , 所 以 计算 比 o 好 的 ctc 的 时 间 是 O(N)。 因 此 , 基于 
两 个 一 半 大 小 的 递归 调用 加 上 联合 两 个 结果 的 线性 附加 p, Piz} pm Da 
工作 , 看 来 我 们 似乎 对 最 近 点 问题 有 一 个 O(N log N) | 
解 。 然 而 , 我 们 还 没有 真正 得 到 O(N log N ) 的 解 。 Left half (A x 1) [Right half(A x A) 

问题 在 于 , 我 们 已 经 假设 这 些 点 按照 y 坐标 排序 是 
现成 的 。 如 果 对 于 每 个 递归 调用 都 执行 这 种 排序 , SEA y 
我 们 又 有 O(N log N) 的 附 吉 工作 : 这 就 得 到 一 个 O(N 
log N) 算 法 。 不 过 问题 还 不 完全 这 么 糟 , 尤其 在 和 蛮 力 
O(N?) 算 法 比较 的 时 候 。 然 而 , 不 难 把 对 于 每 个 递归 调 
用 的 工作 简化 到 O(N), 从 而 保证 O(N log N) 算 法 。 

我 们 将 保留 两 个 表 。 一 个 是 按照 x 坐标 排序 的 点 的 表 , 而 另 一 个 是 按照 y 坐标 排序 的 点 的 
表 。 我 们 分 别称 这 两 个 表 为 P 和 Q。 这 两 个 表 可 以 通过 一 个 预 处 理 排序 步骤 花费 O(N log N) 得 
到 , 因此 并 不 影响 时 间 界 。P, MQ, 是 传递 给 左 半 部 分 递归 调用 的 参数 表 ，PR 和 Qk 是 传递 给 右 
半 部 分 递归 调用 的 参数 表 。 我 们 已 经 看 到 ，P 很 容易 在 中 间 分 开 。 一 旦 分 割 线 已 知 , 我 们 依 序 转 
到 Q, 把 每 一 个 元 素 放 人 相应 的 Qi 或 Qg。 容 易 看 出 ，Qr 和 Qk 将 自动 地 按照 y 坐标 排序 。 当 
递归 调用 返回 时 , 我 们 扫描 Q 表 并 删除 其 x 坐标 不 在 带 内 的 所 有 的 点 。 此 时 Q 只 含有 带 中 的 
点 , 而 这 些 点 保证 是 按照 它们 的 y 坐标 排序 的 。 

这 种 策略 保证 整个 算法 是 O(N log N) 的 , 因为 只 执行 了 O(N) 的 附加 工作 。 

10.2.3 选择 问题 

选择 问题 (selection problem) 要 求 我 们 找 出 N 个 元 素 的 集合 S 中 的 第 & 个 最 小 的 元 素 。 我 们 
对 找 出 中 间 元 素 的 特殊 情况 有 着 特别 的 兴趣 , 这 种 情况 发 生 在 [&= N 72 ] 的 时 候 。 

在 第 1 章 、 第 6 章 和 第 7 章 我 们 已 经 看 到 过 选择 问题 的 几 种 解法 。 第 7 章 中 的 解法 用 到 快速 
排序 的 变 体 并 以 平均 时 间 O(N) 运 行 。 事实 上 , CE Hoare 论述 快速 排序 的 原始 论文 中 已 有 
描述 。 

虽然 这 个 算法 以 线性 平均 时 间 运 行 , 但 是 它 有 一 个 O(N?) 的 最 坏 情 况 。 通 过 把 元 素 排序 ， 
选择 可 以 容易 地 以 O(N log N) 最 坏 情形 时 间 解 决 , 不 过 , 长 时 间 不 知道 选择 是 否 能 够 以 OCN) 
最 坯 情形 时 间 完 成 。 在 7.7.6 节 概 述 的 快速 选择 算法 在 实践 中 是 相当 有 效 的 , 因此 这 个 问题 主要 
还 是 理论 上 的 问题 。 








«—6——5— 





Pra Pi Pr 


10-35 最 多 有 8 个 点 在 该 矩形 中 ; 
有 两 个 坐标 其 中 每 个 都 由 两 个 点 分 享 


Download at http://www.pinSi.com/ 


298 # 10% 


我 们 知道 , 基本 的 算法 是 简单 递归 策略 。 设 N 大 于 截止 点 (cutoff point), 元 素 将 从 截止 点 开 
始 进行 简单 的 排序 ，w 是 选 出 的 一 个 元 素 , 叫做 枢纽 元 (pivot)。 其 余 的 元 素 被 放 在 两 个 集合 S, 
和 SP. S, 含有 不 大 于 v 的 元 素 , 而 S; 则 包含 不 小 于 v 的 元 素 。 最 后 , WRIS I, PAS 
中 的 第 k 个 最 小 的 元 素 可 以 通过 递归 计算 S, 中 第 & 个 最 小 的 元 素 而 找到 。 如 果 &= |Si|+1, 则 
枢纽 元 就 是 第 k 个 最 小 的 元 素 。 否 则 , 在 S 中 的 第 上 个 最 小 的 元 素 是 S; 中 的 第 (上 =- ISl] - 1) 个 
最 小 元 素 。 这 个 算法 和 快速 排序 之 间 的 主要 区 别 在 于 , 这 里 要 求解 的 只 有 一 个 子 问 题 而 不 是 两 
个 子 问题 。 

为 了 得 到 一 个 线性 算法 , 我 们 必须 保证 子 问题 只 是 原 问 题 的 一 部 分 ,而 不 仅仅 只 是 比 原 问 题 
少 几 个 元 素 。 当 然 ， 如 果 我 们 愿意 花费 一 些 时 间 查 找 的 话 , 那么 总 能 够 找到 这 样 一 个 元 素 。 困 难 
的 问题 在 于 我 们 不 能 花费 太 多 的 时 间 寻 找 枢纽 元 。 

对 于 快速 排序 , 我 们 看 到 枢纽 元 一 种 好 的 选择 是 选取 三 个 元 素 并 取 它 们 的 中 值 项 。 这 就 产 
生 某 种 期 望 , 认为 枢纽 元 不 太 坏 , 但 它 并 不 提供 一 种 保证 。 我 们 可 以 随机 选取 21 个 元 素 , WH 
数 时 间 将 它们 排序 , 用 第 11 个 最 大 的 元 素 作为 枢纽 元 , 并 得 到 更 可 能 好 的 枢纽 元 。 然 而 , 如果 
这 21 个 元 素 是 21 个 最 大 元 , 那么 枢纽 元 仍然 会 不 好 。 将 这 种 想法 扩展 , 我 们 可 以 使 用 直到 O 
(NMogN) 个 元 素 , 用 堆 排 序 以 O(N) 总 时 间 将 它们 排序 , 从 统计 的 观点 看 几乎 肯定 得 到 一 个 好 
的 枢纽 元 。 不 过 , 在 最 坏 情 形 下 , 这 种 方法 行 不 通 , 因为 我 们 可 能 选择 O(N /logN ) 个 最 大 的 元 
素 ， 而 此 时 的 枢纽 元 则 是 第 LN - O(NvogN)] 个 最 大 的 元 素 , 这 不 是 N 的 一 个 常数 部 分 。 

然而 , 基本 想法 还 是 有 用 的 。 的 确 , 我 们 将 看 到 , 可 以 用 它 来 改进 快速 选择 所 进行 的 期 望 的 
比较 次 数 。 但 是 , 为 得 到 一 个 好 的 最 坏 情 形 ， 关键 想 法 是 再 用 一 个 间接 层 。 我 们 不 是 从 随机 元 素 
的 样本 中 找 出 中 值 项 , 而 是 从 中 值 项 的 样本 中 找 出 中 值 项 。 

基本 的 枢纽 元 选择 算法 如 下 : 

1. 把 N 个 元 素 分 成 LN/5J 组 5 个 元 素 的 组 , 忽略 剩余 (最 多 4 个 ) 的 元 素 。 

2. 找 出 每 组 的 中 值 项 , 得 到 | NVS 个 中 值 项 的 表 M 。 

3. 求 出 M 的 中 值 项 , 将 其 作为 枢纽 元 v 返回 。 

我 们 将 用 术语 五 数 中 值 取 中 分 割 法 (median-of-median-of-five partitioning) 描 述 使 用 上 面 给 出 的 
枢纽 元 选择 法 则 的 快速 选择 算法 。 现 在 我 们 证 明 , 五 数 中 值 取 中 分 割 法 保证 每 个 递归 子 问题 最 
多 是 原 问 题 的 大 约 70% 的 大小。 我 们 还 要 证 明 , 对 于 整个 选择 算法 , 枢纽 元 可 以 足够 快 地 算出 
以 确保 O(N) 的 运行 时 间 。 

现在 让 我 们 假设 N 可 以 被 5 BR, 因此 不 存在 多 余 的 元 素 。 再 设 N/5 为 奇数 , 这 样 集合 M 
就 包含 奇数 个 元 素 。 我 们 将 要 看 到 , 这 将 提供 某 种 对 称 性 。 于 是 , 为 方便 起 见 我 们 假设 N 为 
10k + 5 的 形式 ,还 假设 所 有 的 元 素 都 是 互 异 的 。 实 际 的 算法 必须 保证 能 够 处 理 该 假设 不 成 立 的 情 
况 。 图 10-36 指出 当 N=45 时 枢纽 元 如 何 能 够 选 出 。 

五 个 元 素 的 排序 组 
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图 10-36 枢纽 元 的 选择 
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在 图 10-36 F, o 代表 该 算法 选 出 作为 枢纽 元 的 元 素 。 由 于 v 是 9 个 元 素 的 中 值 项 , 而 我 们 
假设 所 有 元 素 互 异 , 因此 必然 存在 4 个 中 项 大 于 v 以 及 4 个 小 于 v。 我 们 分 别 用 LMS 表示 这 
些 中 值 项 。 考 虑 具有 一 个 大 中 值 项 (L 型 ) 的 五 元 素 组 。 该 组 的 中 值 项 小 于 组 中 的 两 个 元 素 且 大 
于 组 中 的 两 个 元 素 。 我 们 将 令 H 代表 那些 巨型 元 素 。 存 在 一 些 已 知 大 于 一 个 大 中 值 项 的 元 素 。 
类 似 地 ，T 代表 那些 小 于 一 个 小 中 值 项 的 微型 元 素 。 存 在 10 个 五 型 的 元 素 : RAL 型 中 项 的 每 
组 中 有 两 个 , v 所 在 的 组 中 有 两 个 。 类 似 地 , 存在 10 个 T 型 元 素 。 

L 型 元 素 或 日 型 元 素 保证 大 于 wv, 而 S 型 元 素 或 了 型 元 素 保 证 小 于 w。 于 是 在 我 们 的 问题 中 
保证 有 14 个 大 元 素 和 14 个 小 元 素 。 因 此 , 递归 调用 最 多 可 以 对 45- 14- 1=30 个 元 素 
进行 。 

让 我 们 把 分 析 推 广 到 对 形 如 108 +5 的 一 般 N 的 情形 。 在 这 种 情况 下 , 存在 上 个 工 型 元 素 
和 k 个 S 型 元 素 。 存 在 2k+2 个 日 型 元 素 , 还 有 2&+2 个 工 型 元 素 。 因 此 , 有 3& +2 个 元 素 保 
EKF v 以 及 3k+2 个 元 素 保 证 小 于 v。 于 是 在 这 种 情况 下 递归 调用 最 多 可 以 包含 7k + 2< 
0.7N 个 元 素 。 如 果 N 不 是 10k +5 的 形式 , 类 似 的 论证 仍 可 进行 而 不 影响 基本 结果 。 

剩 下 的 问题 是 确定 得 到 枢纽 元 的 运行 时 间 的 界 。 有 两 个 基本 的 步骤 。 可 以 以 常数 时 间 找 到 5 
元 素 的 中 值 项 。 例 如 , PER 8 次 比较 将 S 个 元 素 排序 。 我 们 必须 进行 L NM 次 这 样 的 运算 , 因 
此 这 一 步 花费 O(N) 时 间 。 然 后 必须 计算 LN《Sj 元 素 组 的 中 值 项 。 明 显 的 做 法 是 将 该 组 排序 并 
返回 中 间 的 元 素 ,但 这 需要 花费 O (LN 75 log LN/5]) = O(N logN) 的 时 间 , 因此 不 能 这 么 做 。 解 
决 方法 是 对 这 | N /5 个 元 素 递归 地 调用 选择 算法 。 

现在 对 基本 算法 的 描述 已 经 完成 。 如 果 想 有 一 个 实际 的 实现 方法 , 那么 还 有 某 些 细节 仍然 
需要 补充 。 例 如 , 重复 元 必须 要 正确 地 处 理 , 该 算法 需要 截止 点 足够 大 以 确保 递归 调用 能 够 进 
行 。 由 于 涉及 大 量 的 系统 开销 ,而且 该 算法 根本 不 实用 , 因此 这 里 将 不 再 描述 需要 考虑 的 任何 细 
节 。 即 使 如 此 , 该 算法 从 理论 的 角度 来 看 仍然 是 一 种 突破 , 因为 其 运行 时 间 在 最 坏 情 形 下 是 线性 
的 , 这 正如 下 面 的 定理 所 述 。 

定理 10.9 使 用 五 数 中 值 取 中 分 割 法 的 快速 选择 算法 的 运行 时 间 为 O(N)。 


证 明 : 

该 算法 由 大 小 为 0.7N 和 0.2N 的 两 个 递归 调用 以 及 线性 附加 工作 组 成 。 根 据 定理 10.8, 其 
运行 时 间 是 线性 的 。 u 
降低 比较 的 平均 次 数 


分 治 算法 还 可 以 用 来 降低 选择 算法 所 需要 的 期 望 比较 次 数 。 让 我 们 看 一 个 具体 的 例子 。 设 
有 1 000 个 数 的 集合 S 并 且 要 寻找 其 中 第 100 个 最 小 的 数 X。 选 择 S HFRS’, 它 由 100 个 数组 
成 。 我 们 期 望 X 值 的 大 小 类 似 于 S 的 第 10 个 最 小 的 数 。 尤 其 是 S 的 第 5 个 最 小 的 数 几 乎 肯定 
小 于 X, 而 S 的 第 15 个 最 小 的 数 几乎 肯定 大 于 Xo 

更 一 般 地 , AN 个 元 素 选 取 s 个 元 素 的 样本 S'。 令 6 是 某 个 数 , 后 面 我 们 将 选择 它 使 得 把 
该 过 程 所 用 的 平均 比较 次 数 最 小 化 。 我 们 找 出 S' 中 第 (wv = ks/N -56) 个 和 第 (vw,= ks/N + 人) 个 
最 小 的 元 素 。 几 乎 肯定 S 中 的 第 上 个 最 小 元 素 将 落 在 w 和 v 之 间 , 因此 留 给 我 们 的 是 关于 20 
个 元 素 的 选择 问题 。 第 上 个 最 小 元 素 以 低 概率 不 落 在 这 个 范围 ,而 我 们 有 大 量 的 工作 要 做 。 不 
过 , 只 要 s 和 8 选择 得 好 , 根据 概率 论 的 定律 我 们 可 以 肯定 , 第 二 种 情形 对 于 整体 工作 不 会 有 不 
利 的 影响 。 

如 果 进 行 分 析 , 那么 我 们 就 会 发 现 , # s= N? lg N 和 5 = N'3log3N, 则 期 望 的 比较 次 
数 为 N * k * OCN??log!2 N), 除 低 次 项 外 它 是 最 优 的 。( 如 果 上 > NA, 那么 可 以 考虑 查找 第 
(NN 一 上 &) 个 最 大 元 素 的 对 称 问题 。) 
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大 部 分 的 分 析 都 容易 进行 。 最 后 一 项 代表 进行 两 次 选择 以 确定 v 和 v; 的 代价 。 假 设 采 用 
合理 巧妙 的 策略 , 则 划分 的 平均 代价 等 于 N 加 上 w, 在 S 中 的 期 望 秩 (expected rank), Bl N +k + 
OUN3A)。 如 果 第 个 元 素 在 S 中 出 现 ,那么 结束 算法 的 代价 等 于 对 S 进行 选择 的 代价 , 即 
Ols) WER k 个 最 小 元 素 不 在 S 中 出 现 , 那么 代价 就 是 O(N)。 然 而 , s Md 已 经 被 选取 以 保 
证 这 种 情况 以 非常 低 的 概率 o(1/N ) 发 生 , 因此 该 可 能 性 的 期 望 代价 是 o(1), CHM N 越 来 越 大 
时 趋向 于 0 的 一 项 。 一 种 精确 的 计算 留 作 练习 10.21。 

这 个 分 析 指 出 , 找 出 中 值 项 平均 大 约 需 要 1.5N 次 比较 。 当 然 , 该 算法 为 计算 * 需要 浮 点 运 
算 , 这 在 一 些 机 器 上 可 能 使 该 算法 减 慢 速度 。 不 过 即使 是 这 样 , 经 验 已 经 证 明 , 若 能 正确 实现 ， 
则 该 算法 完全 能 够 比 得 上 第 7 章 中 快速 选择 的 实现 方法 。 

10.2.4 一 些 算术 问题 的 理论 改进 

本 节 将 描述 一 个 分 治 算法 , 该 算法 是 将 两 个 N 位 数字 的 数 相 乘 。 在 前 面 的 计算 模型 假设 乘 
法 是 以 常数 时 间 完 成 的 , 因为 乘 数 很 小 。 对 于 大 的 数 , 这 个 假设 不 再 成 立 。 如 果 我 们 以 参与 相 乘 
的 数 的 大 小 来 衡量 乘法 , 那么 自然 的 乘法 算法 花费 平方 时 间 , 而 分 治 算法 则 以 亚 二 次 时 间 
(subquadratic time) 运 行 。 我 们 还 要 介绍 经 典 的 分 治 算法 , 它 以 亚 三 次 时 间 (subcubic time) 将 两 个 
NX N SAAR. 

SHR 

设 要 将 两 个 N 位 数字 的 数 X 和 Y 相 乘 。 如 果 X 和 Y 恰好 有 一 个 是 负 的 , 那么 结果 就 是 负 的 ; 
否则 结果 为 正 数 。 因 此 , 我 们 可 以 进行 这 促 栓 查 然后 假设 X，Y>>0。 几 乎 每 一 个 人 在 笔算 乘法 时 使 
用 的 算法 都 需要 B(N2) 次 操作 , 这 是 因为 X 中 的 每 一 位 数字 都 要 被 Y 的 每 一 位 数字 去 乘 的 缘故 。 

如 果 义 =61438521 而 Y —94736407, 那么 XY = 5820464730934047。 让 我 们 把 X AY RR 
两 半 , 分 别 由 最 高 几 位 和 最 低 几 位 数字 组 成 。 此 时 ，X = 6143, XRk = 8521, Y; = 9473，YR = 
6407。 我 们 还 有 X= XI 104+ XR 以 及 Y= YL10*+ YR。 由 此 得 到 

XY = XY 10 + (X, Y, + XY )10+ XRYR 

注意 ,这 个 方程 由 4 次 乘法 组 成 , 即 XLYL, XtYr, XRY 和 XeYr, 它们 每 一 个 都 是 原 问题 
大 小 的 一 半 (NZ2 位 数字 )。 用 108 和 10* 作 乘 法 实际 就 是 添加 一 些 0, 它 及 其 后 的 几 次 加 法 只 是 
添加 了 O(CN) 附 加 的 工作 。 如 果 递 归 地 使 用 该 算法 进行 这 4 项 乘法 , 在 一 个 适当 的 基准 情形 下 停 
ik, 那么 得 到 递归 

T(N)24T(N72) * O(N) 

从 定理 10.6 可 以 看 到 TUN) = OCN?) , 因此 很 不 幸 我 们 没有 改进 这 个 算法 。 为 了 得 到 一 个 

亚 二 次 的 算法 , 我 们 必须 使 用 少 于 4 次 的 递归 调用 。 关 键 的 观察 结果 是 
XLYr + XrYL = (Xi — Xr) CYg — YL) + X,Y, + XrYR 

FE, 我 们 可 以 不 用 两 次 乘法 来 计算 10° 的 系数 , 而 可 以 用 一 次 乘法 再 加 上 已 经 完成 的 两 次 
乘法 的 结果 。 图 10-37 演示 如 何 只 需求 解 3 次 递归 子 问题 。 

容易 看 到 现在 的 递归 方程 满足 

T(N)=3T(N/2)+ O(N) 
从 而 我 们 得 到 T(N) = OCNV)) = O(N1'”)。 为 完成 这 个 算法 , 我 们 必须 要 有 一 个 基准 情况 , 该 
情况 可 以 无 需 递 归 而 解决 。 

当 两 个 数 都 是 一 位 数字 时 , 我 们 可 以 通过 查 表 进 行 乘 法 ; 若 有 一 个 乘 数 为 0, 则 返回 0。 假 如 
在 实践 中 要 用 这 种 算法 , 那么 就 要 把 基本 情况 选择 成 对 机 器 最 方便 的 情况 。 

虽然 这 种 算法 比 标准 的 二 次 算法 有 更 好 的 渐进 性 能 , 但 是 它 却 很 少 使 用 , 因为 对 于 小 的 N 
开销 大 , 而 对 大 的 N 甚至 还 存在 更 好 的 一 些 算 法 。 这 些 算法 也 广泛 利用 了 分 治 策略 。 
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mx 值 计算 复杂 度 
XL 赋 


6,143 值 
Xo 8,521 赋值 
Y, 9,473 赋值 


YR 赋值 
Di= X — Xr -2,378 O(N) 
D2= Yg- Y - 3,066 O(N) 
X.Y, 58,192,639 T(N2Z2) 
XgYgn 54,594,047 T(N2) 
D:D 7,290,948 





D= DD+ X, Y, + XRYR 120,077,634 
54,594,047 

1,200, 776,340,000 

5,819,263,900,000,000 

X,Y,105 + D410* + X,Yg 5,820,464,730,934,047 


图 10-37 分 治 算法 的 执行 情况 


矩阵 乘法 

一 个 基本 的 数值 问题 是 两 个 矩阵 的 乘法 。 图 10-38 给 出 一 个 简单 的 O(N;) 算 法 计算 C= 
AB, 其 中 A、B 和 C 均 为 N x N 矩 阵 。 该 算法 直接 来 自 于 矩阵 乘法 的 定义 。 为 了 计算 C;,;, 我 
们 计算 4 的 第 ; TAB 的 第 7 列 的 点 乘 。 按 照 通常 的 惯例 , 数组 下 标 均 从 0 开始。 


— 
* Standard matrix multiplication. 
* Arrays start at 0. 
* Assumes a and b are square. 
sf 
public static int [ ][ ] multiply( int [ 1L J a, int [][} b) 
{ 
int n = a.length; 
int [ 1L] c = new int[ n ]( nj; 


CONDA Uh WH 


for( int i = 0; i «n; i++ ) // Initialization 
for( int j = 0; j «n; j++ ) 
cl #j{£j] = 0; 


for( int i = 0; i < n; i++) 
for( int j = 0; j < m j++ ) 
for( int k = 0; k < n; k++ ) 
cCCilLi) *aE € JL k ] * bEk ICI]: 


return c; 





图 10-38 i OCN ERRA 


长 期 以 来 曾 认为 矩阵 乘法 是 需要 工作 量 Q(N3) 的 。 然 而 , 在 20 世纪 60 年 代 末 Strassen 指出 
了 如 何 打 破 Q(N3) 的 屏障 。Strassen 算法 的 基本 想法 是 把 每 一 个 矩阵 都 分 成 4 块 , 如 图 10-39 所 
示 。 此 时 容易 证 明 | 
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Cia = Ai Bi + Al2B,, 
Ci 2= A1 4B4,5* A1,2B2,2 





C2, = A34 Bi, + A2,2B21 [E] 10.39 4" AB- C 分 解 
C457 A14 B12 + A2,2B2.2 成 4 块 乘法 
作为 一 个 例子 , 为 了 进行 乘法 AB 
3.4 1 6/15 6 9 3 
AB= I 2 5 7(14 53 1 
5 12 9||1 1 8 4 
4 356 1 4 1 
我 们 定义 下 列 8 个 N/2x N72 Boe: 
| | Aia. | Buel; | | 


此 时 , 我 们 可 以 进行 8 个 N72 X N72 阶 矩 阵 的 乘法 和 4 个 N/2x NA 阶 和 矩阵 的 加 法 。 这 些 加 法 
花费 O(N) 时 间 。 如 果 递 归 地 进行 矩阵 乘法 , 那么 运行 时 间 满 足 
T(N) =8T(N/2) + O(N?) 

从 定理 10.6 可 以 看 到 TUN) 2 O(N’), 因此 我 们 没有 作出 改进 。 如 同 我 们 在 整数 乘法 看 到 
的 , 必须 把 子 问题 的 个 数 简 化 到 8 LA. Strassen 使 用 了 类 似 于 整数 乘法 分 治 算法 的 一 种 策略 并 
指出 如 何 仔 细 地 安排 计算 只 使 用 7 次 递归 调用 。 这 7 个 乘法 是 

M; = (A1,2 7 A22) (B2, + B2,2) 
M;-7(A,1* A23) (Bi, + B2,5) 
M37 (A117 A21) (Bi, + Bi2) 
M,7(Ai14* Aj,2) B25 
Ms= A14 (B5 7 B22) 
Mg = A225(B2, 7 B1,) 
M3= (A2, + A25) Bi, 
一 旦 执行 这 些 乘 法 , 则 最 后 答案 可 以 通过 下 列 8 次 加 法 得 到 
C,,1=M,+M,- M,+ Me 
Ci2= Mait+ M; 
C;,7Mg*t M3 
C2,2= Mı- M3+ Ms- M; 
可 以 直接 验证 , 这 种 机 敏 的 安排 产生 期 望 的 效果 。 现 在 运行 时 间 满 足 递 推 关 系 
T(N) -7T(N/2) + O(N?) 

这 个 递 推 关系 的 解 为 TUN) = O(N’) = O(CN?8), 

如 往常 一 样 ,， 有 些 细节 需要 考虑 , 如 当 N 不 是 2 的 只 时 的 情况 , 不 过 还 是 有 些 根本 性 小 缺憾 。 
Strassen 算法 在 N 不 够 大 时 不 如 矩阵 直接 乘法 。 它 也 不 能 推广 到 抢 阵 是 稀疏 ( 即 含 有 许多 的 0 元 
素 ) 的 情况 , 而 且 它 还 不 容易 并 行 化 。 当 用 浮 点 数 运算 时 , 在 数值 上 它 不 如 经 典 的 算法 稳定 。 因 此 ， 
它 只 有 有 限 的 适用 性 。 然 而 , 它 却 代表 着 重要 理论 上 的 里 程 碑 并 证 明了 , 在 计算 机 科学 中 像 在 许 
多 其 他 领域 一 样 ,即使 一 个 问题 看 似 具 有 固有 的 复杂 性 , 但 在 被 证 明 以 前 却 始终 不 可 万 下 定论 。 
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10.3 动态 规划 


在 前 一 节 , 我 们 看 到 可 以 被 数学 上 递归 表示 的 问题 也 可 以 表示 成 一 种 递归 算法 , 在 许多 情形 
下 对 朴素 的 穷 举 搜索 得 到 显著 的 性 能 改进 。 

任何 数学 递 推 公式 都 可 以 直接 转换 成 递归 算法 , 但 是 基本 现实 是 编译 器 常常 不 能 正确 对 竺 
递归 算法 , 结果 导致 低 效 的 程序 。 当 怀疑 很 可 能 是 这 种 情况 时 , 我 们 必须 再 给 编译 器 提供 一 些 帮 
Bh, 将 递归 算法 重新 写成 非 递 归 算 法 , 让 后 者 把 那些 子 问题 的 答案 系统 地 记录 在 一 个 表 内 。 利 用 
这 种 方法 的 一 种 技巧 叫做 动态 规划 (dynamic programming) 。 
10.3.1 用 一 个 表 代 兰 递 归 

在 第 2 章 我 们 看 到 , 计算 斐 波 那 契 数 的 自然 递归 程序 是 非常 低 效 的 。 回 忆 图 10-40 所 示 的 程 
序 的 运行 时 间 T(N) 满 足 T(N) 宇 T(N -1)+ T(N-2). AF T(N) 作 为 斐 波 那 契 数 满足 同样 
的 递 推 关系 并 具有 同样 的 初始 条 件 , 因此 ,，T(N) 事 实 上 是 以 与 斐 波 那 契 数 相同 的 速度 增长 从 而 
是 指数 级 。 


/** 


* Compute Fibonacci numbers as described in Chapter 1. 
* 


public static int fib( int n ) 


if( n <= 1 ) 
return 1; 
else 
return fib{ n- 1) + fib(n-2); 


SCC 00 -( HUA — 


— 





10-40 “计算 斐 波 那 契 数 的 低 效 算法 


另 一 方面 , 由 于 计算 Fy 所 需要 的 只 是 Fy- 和 Fw-:, 因此 只 需 记 录 最 近 算出 的 两 个 斐 波 那 
HK. XX SESS 10-41 中 的 O(N) 算 法 。 


nk . 
* Compute Fibonaccí numbers as described in Chapter 1. 
*/ 


public static int fibonacci( int n ) 


if( n <= 1) 
return 1; 


OO 7 Ov n -& GC NS —- 


int last = 1; 
int nextToLast = 1; 


int answer = 1; 

for( int i = 2; i <= n; i++ ) 

( 
answer = last + nextToLast; 
nextToLast = last; 
last = answer; 


} 


return answer; 





图 10-41 计算 斐 波 那 契 数 的 线性 算法 
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递归 算法 如 此 慢 的 原因 在 于 算法 模拟 了 递 推 。 为 了 计算 FOND, 需 存 在 一 个 对 FN LUI Fy-2 
的 调用 。 然 而 , 由 于 Fy- ,递归 地 对 FUEL F、_ 3 进行 调用 , 因此 存在 两 个 单独 计算 Fw _: 的 调用 。 
如 果 跟 踪 整 个 算法 , 那么 我 们 可 以 发 现 ，F、 -3 被 计算 了 3 次 ，FNv tO sh, 而 Fy-s 则 是 8 
次 , 等 等 。 如 图 10-42 所 示 , 元 余 计 算 的 增长 是 爆炸 性 的 。 如 果 编 译 器 的 递归 模拟 算法 要 是 能 够 
保留 一 个 预先 算出 的 值 的 表 而 对 已 经 解 过 的 子 问题 不 再 进行 递归 调用 , 那么 这 种 指数 式 的 爆炸 
增长 就 可 以 避免 。 这 就 是 为 什么 图 10-41 中 的 程序 更 加 有 效 的 原因 。 


F5 
udo a RI a ki FY FO 
Fl FT FO FI Fl FO 


FA 10-42 ”跟踪 斐 波 那 契 数 的 递归 计算 


作为 第 二 个 例子 ,我 们 看 到 第 7 章 中 如 何 求解 递 推 关系 CUN) =(2/N) 22 C(i) + NL 
中 C(0) = 1。 假 设 我 们 想 要 检查 所 得 到 的 解 是 否 在 数值 上 是 正确 的 , 此 时 可 以 编写 图 10-43 中 的 
简单 程序 来 计算 这 个 递归 问题 。 


public static double eval( int n ) 


if( n= 0) 
return 1.0; 
else 
{ 
double sum = 0.0; 
for( int i = 0; i < n; i++ ) 
sum += eval( i ); 
return 2.0 * sum / n +n; 


} 


l 
2 
3 
4 
5 
6 
7 
8 
9 





图 10-43 计算 C(N) = 2/N >) oC(i) + N 的 值 的 递归 方法 


这 里 , 递归 调用 又 做 了 重复 的 工作 。 在 这 种 情况 下 , 运行 时 间 T(N) 满 足 T(N) = 

TC) + N, 因为 如 图 10-44 所 示 , 对 于 从 0 到 N -1 的 每 一 个 值 都 有 一 个 (直接 的 ) 递 归 调 
FA, 外 加 O(N) 的 附加 工作 (图 10-44 所 示 的 树 我 们 还 在 哪里 看 到 过 ?)。 对 T(N) 求 解 我 们 发 现 ， 
它 的 增长 是 指数 式 的 。 通 过 使 用 表 , 我 们 得 到 图 10-45 中 的 程序 。 这 个 程序 避免 了 宛 余 的 递归 调 


用 而 以 O(N*) 运 行 。 它 并 不 是 一 个 完美 的 程序 , 作为 练习 , 你 应 对 它 进行 简单 的 修改 , 把 它 的 运 
行 时 间 简 化 到 OCN), 


Cl CO 
\ N 
A hee bet 
C2 Cr co cr cococ! co CO CO 

AN \ 
CI co CO CO 

\ 

co 


10-44 ”跟踪 方法 eval 中 的 递归 计算 
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public static double eval( int n ) 


double [ ] c = new double [n +1]; 


c[ 0 ] = 1.0; 
for( int i = 1; i <= n; i++) 


double sum = 0.0; 
for( int j = 0; j < i; j++ ) 
sum += c[ 3 ]; 
cli) = 2.0 * sum / i + i; 
) 


return c[ n ]; 





图 10-45 ”使 用 一 个 表 来 计算 CON) =2/N > CC) + N fl 


10.3.2 矩阵 乘法 的 顺序 安排 


30， 


AE UE ALB. CHD, A 的 维 数 =S$0x10, B 的 维 数 = 10x 40, C 的 维 数 = 40 x 
D 的 维 数 =30xS$。 虽 然 矩 阵 乘法 运算 是 不 可 交换 的 , 但 它 是 可 结合 的 , 这 就 意味 着 矩阵 的 


乘积 ABCD 可 以 以 任意 顺序 添加 括号 然后 再 计算 其 值 。 将 两 个 阶 数 分 别 为 px g MaX r 的 矩阵 
以 明显 的 方法 相 乘 , 使 用 por 次 纯 量 乘法 。( 由 于 使 用 诸如 Strassen 算法 这 样 的 理论 上 优越 的 算 
法 并 没有 明显 地 改变 我 们 要 考虑 的 问题 , 因此 我 们 还 是 采用 这 个 传统 性 能 界 。) 那 么 , 计算 ABCD 
需要 执行 的 三 个 矩阵 乘法 的 最 好 方式 是 什么 ? 


序 。 


在 四 个 矩阵 的 情况 下 , 通过 穷 举 搜索 求解 这 个 问题 是 简单 的 , 因为 只 有 五 种 方式 来 给 乘法 排 
对 每 种 情况 计算 如 下 : 

(A((BC)D)): 计算 BC 需要 10x40x30=12 000 次 乘法 。 计 算 (BC)D 的 值 需 要 12 000 次 
乘法 计算 BC, 外 加 10x30x5=1 500 次 乘法 , 合计 13 500 次 乘法 。 求 (A((BC)D)) 的 值 需 
要 13 500 次 乘法 计算 (BC)D, 外 加 50x 10x5=2 500 次 乘法 , 总 计 16 000 次 乘法 。 
(A(B(CD))): 计算 CD 需要 40x30x5=6 000 次 乘法 。 计 算 B(CD) 的 值 需要 6 000 KR 
法 计算 CD, 外 加 10x40x5=2 000 次 乘法 , 合计 8 000 次 乘法 。 求 (4(B(CD))) 的 值 需要 
8 000 次 乘法 计算 BCCD),, 外 加 S0x10x5=2 500 次 乘法 , Mit 10 500 次 乘法 。 
(CAB)(CD)): 计算 CD RE 40x30x5=6 000 次 乘法 。 计 算 AB 需要 S0x10x40=20 000 
次 乘法 。 求 ((4B)(CD)) 的 值 需 要 6 000 次 乘法 计算 CD, 20 000 次 乘法 计算 AB, 外 加 
50x40x 5= 10 000 次 乘法 , Bit 36 000 次 乘法 。 

(((AB)C)D): 计算 AB 需要 S0x10x40=20 000 次 乘法 。 计 算 (4B)C 的 值 需要 20 000 次 
乘法 计算 AB, Shiu 50x40 x30=60 000 次 乘法 , 合计 80 000 次 乘法 。 求 (((4B)C)DD) 的 值 
需要 80 000 次 乘法 计算 (4B)C, 外 加 50x30x5=7 500 次 乘法 , 总 计 87 500 次 乘法 。 
((A(BC))D): 计算 BC 需要 10x40x30=12 000 次 乘法 。 计 算 A (BC) 的 值 需要 12 000 次 
乘法 计算 BC, 外 加 50x10x30=15 000 次 乘法 , 合计 27 000 次 乘法 。 求 ((4(BC))D) 的 值 
需要 27 000 次 乘法 计算 ACBC), 外 加 50x30x5=7 500 次 乘法 , Bit 34 500 次 乘法 。 

上 面 的 计算 表明 , 最 好 的 排列 顺序 方法 大 约 只 用 了 最 坏 排列 顺序 方法 的 九 分 之 一 的 乘法 次 
因此 , 进行 一 些 计 算 来 确定 最 优 顺 序 还 是 值得 的 。 不 幸 的 是 , 一 些 明 显 的 贪 焚 算 法 似乎 都 用 
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AL, 而 且 可 能 的 顺序 的 个 数 增长 很 快 。 设 我 们 定义 T(N) 是 顺序 的 个 数 。 此 时 ,，T(1)= 
T(2)=1, T(3)-2, 而 T(4)=5, 正如 我 们 刚刚 看 到 的 。 一 般 地 ， 
T(N) = B3 TG)T(N - i) 

为 此 , 设 和 矩阵 为 A1, Assis An, 且 最 后 进行 的 乘法 是 (442…4;)(4i 4i+2…4Nw)。 此 时 ， 
有 T(i) 种 方法 计算 (4,42…A4;) 且 有 TON - i) 种 方法 计算 (A4; Ann An) EE, 对 于 每 个 可 
能 的 i, 存在 Ti) TON — iDEA A nA; (A; Ait An) 

这 个 递 推 式 的 解 是 著名 的 Catalan 数 , 该 数 指数 增长 。 因 此 , 对 于 大 的 N, 穷 举 搜索 所 有 可 
能 的 排列 顺序 的 方法 是 不 可 行 的。 然而 , 这 种 计数 方法 为 一 种 解法 提供 了 基础 , 该 解法 基本 上 是 
优 于 指数 的 。 对 于 EUN, 令 c; BRA, 的 列 数 。 于 是 A; 有 ci fT. 否则 和 矩阵 乘法 是 无 法 进 
行 的 。 我 们 将 定义 co 为 第 一 个 矩阵 A, 的 行 数 。 

设 M Leji Right 是 进行 矩阵 乘法 AltA Lefi t *** Å Right | A rigu AT tha Se AY RE KK. 为 一 致 起 见 ， 
mpg, ug 二 0。 BRA REE Aupo ACA Argu) 其 中 Left <i € Right。 此 时 所 用 的 乘 
法 次 数 为 mius, ;十 mairtRw+ci-icicpiwo 这 三 项 分 别 代表 计算 (ALp…A;)、(Ait1…Apginn A 
及 它们 的 乘积 所 需要 的 乘法 。 

如 果 我 们 定义 Mr.Riw 为 在 最 优 排列 顺序 下 所 需要 的 乘法 次 数 , 若 Left < Right, W 

Mp Right = „min | Mi, + Misi Riga + Claf - 1Ci CRigh | 
这 个 方程 意味 着 , 如 果 我 们 有 乘法 Apo Apw 的 最 优 的 乘法 排列 顺序 , 那么 子 问题 Ay gs A; 和 
A;+1… A 和 ri 就 不 能 次 最 优 地 执行 。 这 是 很 清楚 的 , 因为 否则 我 们 可 以 通过 用 最 优 的 计算 代替 次 
最 优 计算 而 改进 整个 结果 。 

这 个 公式 可 以 直接 转换 成 递归 程序 , 不 过 , 正如 我 们 在 上 一 节 看 到 的 , 这 样 的 程序 将 是 明显 
低 效 的 。 然 而 , 由 于 大 约 只 有 Men rat NT 72 个 值 需要 计算 , 因此 显然 可 以 用 一 个 表 来 存放 这 
些 值 。 进 一 步 的 考查 表明 , WE Right - Left =k, 那么 只 有 在 Mi ,Ri 加 的 计算 中 所 需要 的 那些 
(& M,, ,满足 x 一 y<k。 这 告诉 我 们 计算 这 个 表 所 需要 使 用 的 顺序 。 

如 果 除 最 后 答案 My, N 外 ,还 要 显示 实际 的 乘法 顺序 , 那么 可 以 使 用 第 9 章 中 最 短路 径 算法 
的 思路 。 无 论 何 时 改变 Men eign 我们 都 要 记录 i 的 值 , 这 个 值 是 重要 的 。 由 此 得 到 图 10-46 所 
示 的 简单 程序 。 

虽然 本 章 重 点 不 是 编程 , 但 是 , 我 们 还 是 要 说 , 许多 编程 人 员 倾 向 于 把 变量 名 称 减 缩 成 一 个 
字母 ,这 并 不 好 。 可 这 里 c、i 和 kk 却 是 作为 单字 母 变量 使 用 的 , 这 是 因为 它们 与 我 们 描述 算法 所 
使 用 的 名 字 是 一 致 的 , 是 非常 数学 化 的 。 不 过 , 一 般 最 好 避免 使 用 字母 1 作为 变量 名 , 因为 “|" 非 
TRITT, 如 果 你 犯 了 一 个 转换 错误 , 那么 可 能 会 陷入 非常 困难 的 调试 麻烦 中 。 

回 到 算法 问题 上 来 。 这 个 程序 包含 三 重典 套 循环 ， 容 易 看 出 它 以 O(N?) 时 间 运 行 。 参 考 文 
献 描述 了 一 个 更 快 的 算法 , 但 由 于 执行 具体 矩阵 乘法 的 时 间 仍 然 很 可 能 会 比 计算 最 优 顺序 的 乘 
法 的 时 间 多 得 多 , 因此 我 们 这 个 算法 还 是 相当 实用 的 。 

10.3.3 最 优 二 又 查找 树 

第 二 个 动态 规划 的 例子 考虑 下 列 输入 : 给 定 一 列 单词 w,, wr, cns wy 和 它们 出 现 的 固定 的 
概率 pi, pas cn. buo 我 们 的 问题 是 要 以 一 种 方法 在 一 棵 二 又 查找 树 中 安放 这 些 单词 使 得 总 的 
期 望 存 取 时 间 最 小 。 在 一 棵 二 叉 查找 树 中 , 访问 深度 d 处 的 一 个 元 素 所 需要 的 比较 次 数 是 d + 1, 


因此 如 果 wi 被 放 在 深度 d; E, 那么 就 要 将 D>)” pi(1 + d) 最 小 化 。 


= 
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** 

* Compute optimal ordering of matrix multiplication. 

* c contains the number of columns for each of the n matrices. 
* c[ 0] is the number of rows in matrix 1. 

* The minimum number of multiplications is left in m[ 1 ][ n ]. 


* Actual ordering is computed via another procedure using lastChange. 
* m and lastChange are indexed starting at 1, instead of 0. 
* Note: Entries below main diagonals of m and lastChange 


* are meaningless and uninitialized. 
"t 


CoN CV URW NE 


public static void optMatrix( int [ ] c, long [ }[ ] m, int [ JE ] lastChange ) 


{ 
int n = c.length - 1; 


for( int left = 1; left <= n; left++ ) 
m[ left ][ left ] = 0; 
for( int k = 1; k < n; ke* ) /kis right - left 
for( int left = 1; left <= n - k; left++ ) 
( 
// For each position 
int right = left + k; 
m[ left ][ right ] = INFINITY; 
for( int i = left; i « right; i++ ) 
( 
long thisCost = m[ left J{ i} * m[ i + 1 ][ right ] 
+c[ left - 1] * c{ i] * c[ right J; 
if( thisCost < m[ left J[ right ] ) // Update min 
{ 
m[ left ][ right ] = thisCost; 
lastChange[ left ][ right ]*i; 





图 10-46 EH B RERA OMY BY ER FI 


作为 一 个 例子 , 图 10-47 表示 在 某 段 课文 中 的 七 个 单词 以 及 它们 出 现 的 概率 。 图 10-48 显示 
三 棵 可 能 的 二 叉 查找 树 。 它 们 的 查找 代价 如 图 10-49 
所 示 。 

第 一 棵 树 是 使 用 贪 禁 方法 形成 的 。 存 取 概 率 最 高 
的 单词 被 放 在 根 节点 处 。 然 后 左右 子 树 递归 形成 。 第 
二 棵 树 是 理想 平衡 查找 树 。 这 两 棵 树 都 不 是 最 优 的 ， 
由 第 三 棵 树 的 存在 可 以 证 实 。 由 此 看 到 , 两 个 明显 的 
解法 都 是 不 可 取 的 。 

乍 看 有 些 奇怪 , 因为 问题 看 起 来 很 像 是 构造 哈 夫 
曼 编 码 树 ,正如 我 们 已 经 看 到 的 , CREB EA AER 
法 求解 。 构 造 一 樟 最 优 二 叉 查 找 树 更 困难 ， 因 图 10-47 最 优 二 叉 查 找 树 问题 的 样本 输入 
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10-48 对 于 上 图 中 数据 的 三 棵 可 能 的 二 叉 查找 树 


输入 1 号 树 258 3 号 树 
单词 概率 访问 开销 访问 开销 访问 开销 
w; bi 一 次 结果 一 次 结果 一 次 结果 
a 0.22 2 0.44 3 0.66 2 0.44 
am 0.18 4 0.72 2 0.36 3 0.54 
and 0.20 3 0.60 3 0.60 1 0.20 
egg 0.05 4 0.20 1 0.05 3 0.15 
if 0.25 1 0.25 3 0.75 2 0.50 
the 0.02 3 0.06 2 0.04 4 0.08 
two 0.08 2 0.16 3 0.24 3 0.24 
总 计 1.00 2.43 2.70 2.15 


图 10-49 三 棵 二 叉 查 找 树 的 比较 


为 数据 不 只 限于 出 现在 树叶 上 , 还 因为 树 必须 满足 二 叉 查 找 树 的 性 质 。 

动态 规划 解 由 两 个 观察 结论 得 到 。 再 次 假设 我 们 想 要 把 (排序 的 ) 一 些 单词 wyy Weep ie 
WRight -1，WwRigh 放 到 一 棵 二 叉 查 找 树 中 。 设 最 优 二 义 查 找 树 
以 w; 作为 根 , 其 中 Left 志 i 三 Right。 此 时 左 子 树 必 须 包含 
Wes 77» Wi-1,9 而 右 子 树 必须 包含 wi s Wrign (根据 
二 叉 查 找 树 的 性 质 )。 再 有 , 这 两 棵 子 树 还 必须 是 最 优 的 , 否 
则 它们 可 以 用 最 优 子 树 代替 ， 从 而 将 给 出 关于 wreft，…， 
Wrin B AE B f. XX FÉ, 我 们 可 以 为 最 优 二 叉 查找 树 的 开销 
Cun ,pi 加 编写 一 个 公式 。 图 10-50 可 能 会 有 帮助 。 

如 果 Left > Right, 那么 树 的 开销 是 0; 这 就 是 null 情形 , 对 于 二 叉 查 找 树 总 有 这 种 情形 。 
否则 , 根 花费 p;。 左 子 树 的 代价 相对 于 它 的 根 为 Cun. ico 右 子 树 相 对 于 它 的 根 的 代价 为 
C;.i giga o 如 图 10-50 所 示 , 这 两 棵 子 树 的 每 个 节点 从 w 开始 都 比 从 它们 对 应 的 根 开始 深 一 层 ， 


因此 ,必须 加 上 2777, p 和 >) “pp, 于 是 得 到 如 下 公式 ; 





图 10-50 最 优 二 义 查找 树 的 构造 


Crep Rig = E min. Ab + Chua, i-1 + Cin Rige 十 dat Sal 


min LOL. i-l + Ci+1， Right T p 


Left s is; Right 
从 这 个 方程 可 以 直接 编写 一 个 程序 来 计算 最 优 二 又 查找 树 的 值 。 像 通常 一 样 ， 具体 的 查找 树 
可 以 通过 存储 使 Ci ,rw 最 小 化 的 i 值 而 被 保留 。 标 准 的 递归 例 程 可 以 用 来 显示 具体 的 树 。 
10-51 显示 将 由 算法 产生 的 表 。 对 于 单词 的 每 个 子 区 域 , 最 优 二 叉 查 找 树 的 值 和 根 都 被 保留 。 
最 底部 的 项 计算 输入 中 全 部 单词 集合 的 最 优 二 叉 查 找 树 。 最 优 树 是 图 10-48 中 所 示 的 第 三 棵 树 。 
对 于 一 个 特定 子 区 域 即 am. .if 的 最 优 二 又 查找 树 的 精确 计算 如 图 10-52 所 示 。 它 是 计算 通 
过 在 根 处 放置 am, and, egg 和 if 所 得 的 最 小 值 树 而 得 到 的 。 例 如 ， 当 and 被 放 在 根 处 的 时 候 , 左 
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Left] Left=2  Left-3  Left-4 Left=5 Left=6 Left=7 





图 10-51 对 于 样本 输入 的 最 优 二 叉 查 找 树 的 计算 


子 树 包含 am. .am( 通 过 前 面 的 计算 , 值 为 0.18), 右 子 树 包含 egg. ORX 0.35), 而 Pant bua 
Dag * pr=0.68, 总 价值 为 1.21。 


0 + 0.80 + 0.68 = 1.48 0.18 + 0.35 + 0.68 = 1.21 
(if) 
far. Lai So 
0.56 + 0.25 + 0.68 = 1.49 0.66 + 0 + 0.68 = 1.34 


10-52. Xf am. .if 的 表 项 (1.21, and) MITA 


这 个 算法 的 运行 时 间 是 OCN?), 因为 当 它 实 现 的 时 候 我 们 得 到 一 个 三 重 循环 。 对 于 这 个 问 
题 的 一 种 O(N’) 算 法 在 练习 中 进行 了 概述 。 
10.3.4 所 有 点 对 最 短路 径 

我 们 的 第 三 个 也 是 最 后 一 个 动态 规划 应 用 是 计算 有 向 图 G=(V, E)h SOR RS 
路 径 的 一 个 算法 。 在 第 9 章 我 们 看 到 单 源 最 短路 径 问 题 的 一 个 算法 , 该 算法 找 出 从 某 个 任意 点 s 
到 所 有 其 他 顶点 的 最 短路 径 。 这 个 Dijkstra 算法 对 稠密 的 图 以 O CI V1*) 时 间 运 行 , 但 是 实际 上 对 
稀 玖 的 图 更 快 。 我 们 将 给 出 一 个 短小 的 算法 解决 对 稠密 图 的 所 有 点 对 的 问题 。 这 个 算法 的 运行 
时 间 为 OC V1 ), 它 不 是 对 Dijkstra 算法 | V1 次 迭代 的 一 种 渐进 改进 , 但 对 非常 稠密 的 图 可 能 更 
快 , 原因 是 它 的 循环 更 紧凑 。 如 果 存 在 一 些 负 的 边 值 但 没有 负 值 圈 , 那么 这 个 算法 也 能 正确 运 
行 ; 而 Dijkstra 算法 此 时 是 无 效 的 。 

让 我 们 回忆 Dijkstra 算法 的 一 些 重要 细节 (读者 可 以 复习 9.3 节 )。Dijkstra 算法 从 顶点 s F 
始 并 分 阶段 工作 。 图 中 的 每 个 顶点 最 终 都 要 被 选 做 中 间 顶 点 。 如 果 当 前 所 选 的 顶点 是 v, 那么 对 
FHT wE€V,'Éd,-mi(d,, dut co,w)。 这 个 公式 表示 , (AM s) 到 w 的 最 佳 距离 或 者 是 前 面 
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知道 的 从 s 到 zw 的 距离 , 或 者 是 从 *{( 最 优 地 ) 到 v 然后 再 直接 从 vw 到 w HAR. 

Dijkstra 算法 为 动态 规划 算法 提供 了 这 样 的 想法 : 我 们 依 序 选择 这 些 顶点 。 将 定义 六 ,为 
M. v; Blo, 只 使 用 mw ,wv ,… ,wv 作为 中 间 顶 点 的 最 短路 径 的 权 。 根 据 这 个 定义 ，Do,;,; = cij 其 中 
Elu, wv) 不 是 该 图 的 边 则 c; doo; HA, REGE XL, Diy), EHE PA v; By 的 最 短路 径 。 

如 图 10-53 fa, 34 & 20 时 可 以 给 DD .;,; 写 一 个 简单 公式 。 从 v; 到 ww REH vi, uts w 
作为 中 间 顶 点 的 最 短路 径 ,或 者 是 根本 不 使 用 v, 作为 中 间 顶 点 的 最 短路 径 , 或 者 是 由 两 条 路 径 
uy, Au» AHHH, 其 中 的 每 条 路 径 只 使 用 前 上 =- 1 个 顶点 作为 中 间 顶 点 。 这 
导致 下 面 的 公式 : 


De. j = minl D,.,,;;, De-i + D ie jl 


;** 
* Compute all-shortest paths. 
* af ][ ] contains the adjacency matrix with 
* af i ][ i ] presumed to be zero. 
* df ] contains the values of the shortest path. 
* Vertices are numbered starting at 0; all arrays 
* have equal dimension. A negative cycle exists if 
* d[ i ][ i ] is set to a negative value. 
* Actual path can be computed using path[ ][ ]. 
* NOT A VERTEX is -1 
*/ 7 
public static void allPairs( int [ ][ ] a, int [][] d, int [][ ] path ) 
( 


O0 N DAUM BW — 


int n = a.length; 


// Initialize d and path 
for( int i = 0; i «n; i+ ) 
for( int j = 0; j < m j++ ) 
{ 
d 1 Lea t ][ 3 l]; 
path[ i J{ j ] = NOT A VERTEX; 


for( int k = 0; k < n; ke* ) 
// Consider each vertex as an intermediate 
for( int i = 0; i < n; i++) 
for{ int j = 0; j < n; j++ ) 
if( d[ 1 30k) * dLCk1L3]1*4[ 3 ][ 3 1) 
{ 


// Update shortest path 
aC i JCI J = dL id€k) * d[Lk ]L 3 3; 
path[ i ][ 3] = k; 





图 10-53 所 有 点 对 最 短路 径 


时 间 需 求 还 是 O(| V1 )。 跟 前 面 的 两 个 动态 规划 例子 不 同 , 这 个 时 间 界 实际 上 尚未 用 另外 的 方 
法 降低 。 
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因为 第 上 阶段 只 依赖 于 第 (& - DNE, 所 以 看 来 只 有 两 个 | Vi x LV BERE RAE Ri, 
在 用 上 开始 或 结束 的 路 径 上 以 & 作为 中 间 顶 点 对 结果 没有 改进 ,除非 存在 一 个 负 的 圈 。 因 此 只 
有 一 个 矩阵 是 必需 的 , 因为 De-i Desir De 1.4.5 = Dj， 这 意味 着 右边 的 项 都 不 改变 值 且 
都 无 需 保 存 。 这 个 观察 结果 导致 图 10-53 中 的 简单 程序 , 为 与 Java 的 约定 一 致 , 该 程序 将 顶点 从 
0 开始 编号 。 

在 一 个 完全 图 中 , 每 一 对 顶点 (在 两 个 方向 上 ) 都 是 连通 的 , 该 算法 几乎 肯定 要 比 Dijkstra 算 
法 的 | V| 次 迭代 来 得 快 , 因为 这 里 的 循环 非常 紧凑 。 第 17 行 到 第 22 行 可 以 并 行 执行 , 第 26 行 到 
第 33 行 也 可 并 行 执行 。 因 此 , 这 个 算法 看 来 很 适合 并 行 计算 。 

动态 规划 是 一 种 强大 的 算法 设计 技巧 , 它 给 解 提供 一 个 起 点 。 它 基本 上 是 首先 求解 一 些 更 
简单 问题 的 分 治 算法 的 范例 , 重要 的 区 别 在 于 这 些 更 简单 的 问题 不 是 原 问题 的 明显 的 分 割 。 
为 子 问题 反复 被 求解 , 所 以 重要 的 是 将 它们 的 解 记录 在 一 个 表 中 而 不 是 重新 计算 它们 。 在 某 些 
情况 下 , 解 可 以 被 改进 (虽然 这 确实 不 总 是 明显 的 且 常 常 是 困难 的 ), 而 在 另 一 些 情况 下 , 动态 规 
划 方 法 则 是 所 知道 的 最 好 的 处 理 方法 。 

在 某 种 意义 上 , 如 果 你 看 出 一 个 动态 规划 问题 , 那么 你 就 看 出 所 有 的 动态 规划 问题 。 动 态 规 
划 更 多 的 例子 在 一 些 练习 和 参考 文献 中 可 以 找到 。 


10.4 随机 化 算法 


假设 你 是 一 位 教授 , 正在 布置 每 周 的 程序 设计 作业 。 你 想 确保 学 生 们 自己 完成 自己 的 程序 ， 
或 他 们 至 少 理解 他 们 提交 上 来 的 程序 。 一 种 解决 方案 是 在 每 个 程序 呈 交 的 当天 进行 一 次 测验 。 
另外 , 由 于 这 些 测验 要 花费 很 多 的 时 间 , 因此 实际 上 只 能 对 大 约 半数 的 程序 可 以 这 么 做 。 你 的 问 
题 是 决定 什么 时 候 进 行 这 些 测验 。 

当然 ,如果 事 先 归 布 这 些 测验 , 那么 这 可 以 解释 为 对 得 不 到 测验 的 5096 程序 的 默许 作弊 。 于 
E, 可 能 采取 事先 不 宣布 而 对 半数 的 程序 进行 测验 的 策略 , 但 是 学 生 们 很 快 就 会 搞 清 楚 这 种 策略 。 
另 一 种 可 能 是 对 看 似 重要 的 程序 进行 测验 , 但 这 又 很 可 能 随 着 学 期 的 更 蔡 而 泄露 类 似 的 测验 规律 。 
学 生 们 会 散布 都 考 些 什么 样 的 题 的 传闻 , 这 种 方法 很 可 能 经 过 一 个 学 期 以 后 就 没有 保密 价值 了 。 

消除 这 些 弊端 的 一 种 方法 是 使 用 一 枚 硬币 。 测 验 对 每 一 个 程序 进行 (举行 测验 远 不 如 给 测验 评 
分 消耗 时 间 ), 但 在 开始 上 课时 教授 将 掷 硬币 来 决定 是 否 要 举行 测验 。 采 用 这 种 方式 ,在 上 课 前 不 
可 能 知道 测验 是 否 要 发 生 , 而 测验 的 规律 学 期 和 学 期 之 间 也 不 重复 。 这 样 , 不 管 前 面 的 测验 是 什 
么 规律 , 学 生 只 能 预计 测验 将 以 50% 的 概率 发 生 。 这 种 方法 的 缺点 是 有 可 能 整个 学 期 都 没有 测验 ， 
不 过 这 不 太 可 能 发 生 , 除非 硬币 有 问题 。 每 个 学 期 测验 的 期 望 次 数 是 程序 数目 的 一 半 , 并 且 测 验 
的 次 数 将 以 高 概率 不 会 太 偏离 这 个 数目 。 

这 个 例子 叙述 了 我 们 称 之 为 随机 化 算法 (randomized algorithm) 的 方法 。 在 算法 期 间 , 随机 数 至 
少 有 一 次 用 于 决策 。 该 算法 的 运行 时 间 不 只 依赖 于 特定 的 输入 ,而 且 依 赖 于 所 出 现 的 随机 数 。 

一 个 随机 化 算法 的 最 坏 情 形 运 行 时 间 常 常 和 非 随机 化 算法 的 最 坏 情 形 运行 时 间 相 同 。 重 要 的 
区 别 在 于 , 好 的 随机 化 算法 没有 坏 的 输入 , 而 只 有 坏 的 随机 数 (相对 于 特定 的 输入 )。 这 看 起 来 像 是 
只 是 哲学 上 的 差别 , 但 是 实际 上 它 是 相当 重要 的 , 正如 下 面 的 例子 所 示 。 

考虑 快速 排序 的 两 种 变形 。 方 法 A 用 第 一 个 元 素 作为 枢纽 元 ， 而 方法 B 使 用 随机 选 出 的 元 素 
作为 枢纽 元 。 在 这 两 种 情形 下 , 最 坏 情 形 运行 时 间 都 是 B(N?*), 因为 在 每 一 步 都 有 可 能 选取 最 大 
的 元 素 作为 枢纽 元 。 两 种 最 坏 情形 之 间 的 区 别 在 于 , 存在 特定 的 输入 总 能 够 出 现在 A 中 并 产生 坏 
的 运行 时 间 。 当 每 一 次 给 定 已 排序 数据 时 , 方法 A 都 将 以 8B(N?) 时 间 运 行 。 如 果 方 法 B 以 相同 的 
输入 运行 两 次 , 那么 它 将 有 两 个 不 同 的 运行 时 间 , 这 依赖 于 什么 样 的 随机 数 出 现 。 
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在 运行 时 间 的 计算 中 我 们 通 篇 假设 所 有 的 输入 都 是 等 可 能 的 。 实 际 上 这 并 不 成 立 , 因为 例如 
几乎 排序 的 输入 常常 要 比 统计 上 期 望 的 出 现 得 多 得 多 , 而 这 会 产生 一 些 问 题 , 特别 是 对 快速 排序 
和 二 叉 查 找 树 。 通 过 使 用 随机 化 算法 , 特定 的 输入 不 再 是 重要 的 。 重 要 的 是 随机 数 , 我 们 可 以 得 
到 一 个 期 望 的 运行 时 间 , 此 时 我 们 是 对 所 有 可 能 的 随机 数 取 平 均 而 不 是 对 所 有 可 能 的 输入 求 平均 。 
使 用 随机 枢纽 元 的 快速 排序 算法 是 一 个 O(NlogN) 期 望 时间 算 法 。 这 就 是 说 , 对 任意 的 输入 , 包括 
已 经 排序 的 输入 , 根据 随机 数 统计 学 理论 , 运行 时 间 的 期 望 值 为 O(NlogN)。 期 望 运行 时 间 界 至 少 
要 强 于 平均 时 间 界 , 不 过 , 当然 要 比 对 应 的 最 坏 情 形 界 弱 。 另 一 方面 , 正如 我 们 在 选择 问题 中 所 看 
到 的 , 得 到 最 坏 情 形 时 间 界 的 那些 解决 方案 常常 不 如 它们 针对 平均 情形 界 的 解法 那样 实用 。 但 是 ， 
随机 化 算法 却 通常 是 实用 的 。 

在 这 一 节 , 我 们 将 考查 随机 化 的 两 个 用 途 。 首 先 , 将 介绍 以 O(logN) 期 望 时间 支 持 二 又 查找 
树 操 作 的 新 颖 的 方案 。 这 意味 着 不 存在 坏 的 输入 , 只 有 坏 的 随机 数 。 从 理论 的 观点 看 , 这 并 没有 
那么 特别 令 人 振奋 ,因为 平衡 查找 树 在 最 坏 情形 下 达到 了 这 个 界 。 然 而 , 随机 化 的 使 用 导致 了 对 
查找 、 插入、 特别 是 删除 相对 简单 的 算法 。 

第 二 个 应 用 是 测试 大 数 是 否 是 素数 的 随机 化 算法 。 我 们 介绍 的 这 种 算法 运行 很 快 但 偶尔 会 有 
错 。 不 过 , 发 生 错误 的 概率 可 以 小 到 忽略 不 计 。 

10.4.1 随机 数 发 生 器 


由 于 我 们 的 算法 需要 随机 数 , 因此 必须 要 有 一 种 方法 来 生成 它 。 实 际 上 , 真正 的 随机 性 在 计 
算 机 上 是 不 可 能 生成 的 , 因为 这 些 数 将 依赖 于 算法 ， 从 而 不 可 能 是 随机 的 。 一 般 说 来 , 产生 伪 随 机 
(pseudorandom) 数 就 足够 了 , 伪 随 机 数 看 起 来 像 是 随机 的 数 。 随 机 数 有 许多 已 知 的 统计 性 质 ; 伪 随 
机 数 满足 大 部 分 的 这 些 性 质 。 令 人 惊奇 的 是 , 这 说 起 来 容易 , 做 起 来 可 就 难 多 了 。 

假设 我 们 只 需要 抛 一 枚 硬币 ; 这 样 , 必然 随机 地 生成 0( 正 面 ) 或 1( 反 面 )。 一 种 做 法 是 考查 系 
统 时 钟 。 这 个 时 钟 可 以 把 时 间 记 录 成 整数 , 而 这 个 整数 是 从 某 个 起 始 时 刻 开始 计数 的 秒 数 。 此 时 
我 们 可 以 使 用 最 低 的 一 位 二 进 制 位 。 问 题 在 于 , 如 果 需 要 的 是 随机 数 序 列 , 那么 这 种 方法 就 不 理 
想 了 。1 秒 是 一 个 长 的 时 间 段 , 在 程序 运行 时 这 个 时 钟 可 能 根本 没 变化 。 即 使 时 间 用 微 秒 的 单位 记 
K, 如 果 程 序 自身 正在 运行 , 那么 所 生成 的 数 的 序列 也 远 不 是 随机 的 , 因为 在 对 发 生 器 的 多 次 调用 
之 间 的 时 间 在 每 次 程序 调用 时 可 能 都 是 一 样 的 。 此 时 我 们 看 到 , 真正 需要 的 是 随机 数 的 序列 
(sequence)93 。 这 些 数 应 该 独立 地 出 现 。 如 果 一 枚 硬币 抛 出 后 出 现 的 是 正面 , 那么 下 一 次 再 抛 出 时 
出 现 正面 或 反面 应 该 还 是 等 可 能 的 。 

产生 随机 数 的 最 简单 的 方法 是 线性 同 余数 发 生 器 , EF 1951 年 由 Lehmer 首先 描述 。 数 ri， 
Xx2,… 的 生成 满足 

T+1= Á x; mod M 
为 了 开始 这 个 序列 , 必须 给 出 zo 的 某 个 值 。 这 个 值 叫做 种 子 (seed)。 如 果 9 70, 那么 这 个 序列 远 不 
是 随机 的 , 但 是 如 果 A 和 M 选择 得 正确 , 那么 任何 其 他 的 1<zo< M 都 是 同等 有 效 的 。 如 果 M BR 
数 , 那么 x, 就 决 不 会 是 0。 作 为 一 个 例子 , WR M-11, A=7, 而 zo=1, 那么 所 生成 的 数 为 
r A rA Pa LEE A S. P Er a r aa 

注意 , 在 M-1=10 个 数 以 后 , 序列 将 重复 。 因 此 , 这 个 序列 的 周期 为 M -1, 它 是 尽 可 能 地 大 
CREE ASE). WR M 是 素数 , 那么 总 存在 对 A 的 一 些 选 择 能 够 给 出 全 周期 (full period) M — 
1。 对 A 的 有 些 选 择 则 得 不 到 这 样 的 周期 ; 如 果 A=5 而 zo=1, 那么 序列 有 一 个 短 周期 5。 


O 在 本 节 的 其 余部 分 我 们 将 使 用 随机 代替 伪 随 机 。 
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5,3,4,9,1,5,3,4,-- 

WR M 选择 得 很 大 , 比如 31 比特 的 素数 , 那么 对 于 大 部 分 的 应 用 来 说 周期 应 该 是 非常 大 的 。 
Lehmer 建议 使 用 31 比特 的 素数 M 92? -1=2 147 483 647。 对 于 这 个 素数 ，A = 48271 是 给 出 
全 周期 发 生 器 的 许多 值 中 的 一 个 。 它 的 用 途 已 经 被 深入 研究 并 被 这 个 领域 的 专家 推荐 。 后 面 我 
们 将 看 到 , 对 于 随机 数 发 生 器 ， 贸 然 修改 通常 意味 着 失败 , 因此 最 好 还 是 继续 坚持 使 用 这 个 公式 
直到 有 新 的 成 果 发 布 。 

这 像 是 一 个 实现 起 来 简单 的 例 程 。 通 常 ,类 变量 用 来 存放 r 的 序列 中 的 当前 值 。 当 调试 一 
个 使 用 随机 数 的 程序 的 时 候 , 大 概 最 好 是 置 oy = 1, 这 使 得 总 是 出 现 相同 的 随机 序列 。 当 程序 正 
HLEN, 或 者 可 以 使 用 系统 时 钟 , 或 者 要 求 用 户 输入 一 个 值 作为 种 子 。 

返回 一 个 位 于 开 区 间 (0,1) 的 随机 实数 (0 和 1 是 不 可 能 取 的 值 ) 也 是 常见 的 情况 ; 这 可 以 通 
过 除 以 M 得 到 。 由 此 可 知 , 在 任意 闭 区 间 [a, 8] 的 随机 数 可 以 通过 规范 化 来 计算 。 这 将 产生 图 
10-54 中 “明显 的 "类 , 不 过 , 该 类 是 不 正确 的 。 







public class Random 






private static final int A = 48271; 
private static final int M = 2147483647; 







public Random( ) 







state = System.currentTimeMillis( ) % Integer.MAX VALUE ; 





y** 






12 * Return a pseudorandom int, and change the 
13 * internal state. DOES NOT WORK. 

14 * @return the pseudorandom int. 

15 */ 







public int randomIntWRONG( ) 
{ 







return state = ( A * state) % M; 





yee 









22 * Return a pseudorandom double in the open range 0..1 
23 * and change the internal state. 

24 * @return the pseudorandom double. 

25 * 

26 public double randono 1( ) 

27 a | 

28 return (double) randomInt( ) / M; 





29 } 







private int state; 


图 10-54 不 能 正常 工作 的 随机 数 发 生 器 
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这 个 类 的 问题 是 乘法 可 能 溢出 ; 虽然 这 不 是 一 个 错误 , 但 是 它 影响 计算 的 结果 , 从 而 影响 伪 
随机 性 。 虽 然 我 们 可 以 使 用 64 比特 的 long 型 整数 , 但 它 将 减 慢 计算 速度 。Schrage 给 出 一 个 过 
E, 在 这 个 过 程 中 所 有 的 计算 均 可 在 32 位 机 上 进行 而 不 会 溢出 。 我 们 计算 M/A 的 商 和 余数 并 
把 它们 分 别 定义 为 8 和 R。 在 上 述 情况 下 , Q=44488, R=3399, HR<Q, RNA 


xiu1= Az;modM = Az; - M| 4E: | 
-As-M|$ | M8] - "^r ] 
-^.-M[$]*v(La]- Lor ]) 
由 于 2,=2| G | + zimodQ, 因此 可 以 代 人 到 右边 的 第 一 个 Az, 并 得 到 


natal gulis. +m(| 3] 7 i3) 
| 


(B M=AQ+R, WIL AQ-M- 一 R。 于 是 我 们 得 到 
s AGmiO -R| 8] + 人吉 | - | 48) 


项 3(z,)= | 8] - | 47 [stitit o, 或 者 是 1， 因 为 两 项 都 是 整数 而 它们 的 差 非 0 即 1。 因 
此 , 我 们 有 


z;417 A(z;modQ) - R | 如 | + Mó( xj) 


快速 验证 表明 , 因为 R<, 故 所 有 的 余 项 均 可 计算 而 没有 溢出 (这 就 是 选择 A = 48 271 的 原因 
之 一 )。 此 外 , 仅 当 余 项 的 值 小 于 0 时 3S(Czi) = 1。 因 此 6(z,) 不 需要 显 式 地 计算 而 是 可 以 通过 简 
单 的 测试 来 确定 。 这 导致 图 10-55 中 修正 后 的 程序 。 

人 们 可 能 会 想到 要 假设 所 有 的 机 器 在 它们 标准 的 库 中 都 有 一 个 至 少 像 图 10-55 中 的 程序 那 
么 好 的 随机 数 发 生 器 , 但 很 遗憾 , 情况 并 非 如 此 。 许 多 库 中 的 发 生 器 基于 函数 

z;41 7 (Ax; + C)mod 28 
其 中 B 的 选取 要 匹配 机 器 整数 的 比特 位 数 , 而 C 是 奇数 。 不 幸 的 是 , 这 些 发 生 器 总 是 产生 在 奇 
BEZLER v, 的 值 一 一 很 难 具有 理想 的 性 质 。 事 实 上 , 低位 (充其量 ) 是 以 周期 2* 循环 。 许 
多 其 他 随机 数 发 生 器 要 比 图 10-55 所 提供 的 随机 数 发 生 器 的 循环 (周期 ) 小 得 多 。 这 些 发 生 器 对 
于 需要 长 的 随机 数 序列 的 情况 是 不 合适 的 。java 库 和 UNIX 的 drand48 函数 使 用 这 种 形式 的 一 
个 发 生 器 。 不 过 , 它们 使 用 48 比特 线性 同 余 发 生 器 并 且 只 返回 高 32 比特 , 这 样 ， 避 免 了 在 低 阶 
比特 位 上 的 循环 问题 。 用 到 的 常数 是 4A=25214903917, B=48 以 及 C=13。 最 后 , 好 像 我 们 可 
以 通过 添加 一 个 常数 到 方程 中 去 可 能 会 得 到 更 好 的 随机 数 发 生 器 。 例 如 ， 
2341 = (48 2712; + 1)mod(2?! - 1) 
多 少 会 更 加 随机 一 些 。 下 面 这 个 例子 说 明 这 些 随 机 数 发 生 器 是 多 么 的 脆弱 : 
[48 271(179 424 105) + 1 ]mod(2?! —1)= 179 424 105 

因此 , 如果 种 子 是 179 424 105, 那么 发 生 器 将 陷 人 周期 为 1 的 循环 。 
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public class Random 


private static final int A = 48271; 
private static final int M = 2147483647; 
private static final int Q = M/ A; 
private static final int R = M % A; 


** 

* Return a pseudorandom int, and change the internal state. 
* @return the pseudorandom int. 

i 

public int randomInt( ) 

{ 


VONA Wi 一 


int tmpState = A * ( state $% Q) - R* ( state / Q ); 


if( tmpState >= 0 ) 

state = tmpState; 
else 

state = tmpState + M; 


return state; 


} 


// Remainder of this class is the same as Figure 10.54 





Kd 10-55 不 溢出 的 随机 数 发 生 器 


10.4.2 跳跃 表 


随机 化 的 第 一 个 用 途 是 以 O(logN) 期 望 时 间 支 持 查 找 和 插入 的 数据 结构 。 正 如 在 本 节 介绍 
中 所 提 到 的 , 这 意味 着 对 于 任意 输入 序列 的 每 一 次 操作 的 运行 时 间 都 有 期 望 值 O(logN), 其 中 的 
期 望 是 基于 随机 数 发 生 器 的 。 能 够 执行 添加 删除 和 所 有 涉及 排序 的 操作 , 并 且 能 够 得 到 与 二 叉 
查找 树 的 平均 时 间 界 匹配 的 期 望 时 间 界 。 

最 简单 的 支持 查找 的 可 能 的 数据 结构 是 链表 。 图 10-56 是 一 个 简单 的 链表 。 执 行 一 次 查找 
的 时 间 正 比 于 必须 考查 的 节点 个 数 , 个 数 最 多 是 N。 


CHEO H S-20- 
图 10-56 简单 链表 
图 10-57 表示 一 个 链表 , 在 该 链表 中 , 每 隔 一 个 节点 就 有 一 个 附加 的 指向 它 在 表 中 前 两 个 位 
置 上 的 节点 的 链 。 正 因为 如 此 , 在 最 坏 情形 下 最 多 考查 | N 人 1+ 1 个 节点 。 


将 这 种 想法 扩展 , 我 们 得 到 图 10-58. KB, 每 个 第 4 节点 都 有 一 个 链接 到 该 节点 前 方 的 下 
一 个 第 4 节点 的 链 。 只 有 [「 NM41+ 2 个 节点 被 考查 。 





图 10-57 带 有 链接 到 前 面 第 2 个 表 元 素 的 
链 的 链表 链 的 链表 
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这 种 跳跃 幅度 的 一 般 情形 如 图 10-59 所 示 。 每 个 第 27 节点 就 有 一 个 链接 到 这 个 节点 前 方 下 
一 个 第 2 节点 的 链 。 链 的 总 个 数 仅 仅 是 加 倍 , 但 现在 在 一 次 查找 中 最 多 只 考查 [log N | 个 节点 。 
不 难看 到 , 一 次 查找 总 的 时 间 消 耗 为 O(log N), 这 是 因为 查找 由 向 前 到 一 个 新 的 节点 或 者 在 同 
一 节点 下 降 到 低 一 级 的 链 组 成 。 在 一 次 查找 期 间 每 一 步 总 的 时 人 间 消 耗 最 多 为 O(log N)。 注 意 ， 
在 这 种 数据 结构 中 的 查找 基本 上 是 折 半 查找 (binary search), 

这 种 数据 结构 的 问题 是 进行 有 效 的 插入 太 过 于 呆板 。 使 这 种 数据 结构 可 用 的 关键 是 稍微 放 
宽 结构 条 件 。 我 们 将 带 有 上 个 链 的 节点 定义 为 k 阶 节点 (level k node)。 如 图 10-59 所 示 , 任意 k 
阶 节点 上 的 第 i 阶 (k 宇 让 链 链接 的 下 一 个 节点 至 少 具有 i 阶 。 这 是 一 个 容易 保留 的 性 质 ; AX, 
10-59 指出 比 它 限制 性 更 强 的 性 质 。 这 样 , 我 们 把 第 i 个 链接 到 前 面 第 2^ 个 节点 的 链 这 种 限 
HEH, 而 代 之 上 面 稍 松 一 些 的 限制 条 件 。 

当 需 要 插 人 新 元 素 的 时 候 , 我 们 为 它 分 配 一 个 新 的 节点 。 此 时 , 我 们 必须 决定 该 节点 是 多 少 
阶 的 。 考 查 图 10-59 可 以 发 现 , 大 约 一 半 的 节点 是 1 阶 节点 , 大 约 174 的 节点 是 2 阶 节点 , 通常 ， 
KAI 的 节点 是 i 阶 节点 。 我 们 按照 这 个 概率 分 布 随机 选择 节点 的 阶 数 。 最 容易 的 方法 是 搜 
一 枚 硬币 直到 正面 出 现 并 把 抛 硬币 的 总 次 数 用 做 该 节点 的 阶 数 。 图 .10-60 显示 一 个 典型 的 跳 既 
表 (skip list)。 





图 10-59 ” 带 有 链接 到 前 面 第 2: 个 表 元 素 的 链 的 链表 图 10-60 ”一 个 跳跃 表 


给 出 上 面 的 分 析 以 后 , 跳跃 表 算法 的 描述 就 简单 了 了。 为 执行 一 次 查找 , 我 们 在 头 节点 从 最 高 
阶 的 链 开 始 , 沿 着 这 个 阶 一 直 走 直至 找到 大 于 我 们 正在 寻找 的 节点 的 下 一 个 节点 (或 者 是 null) 
前 停 下 。 这 时 , 我 们 转 到 低 一 阶 的 阶 并 继续 这 种 方法 。 当 进行 到 一 阶 停 止 时 , 或 者 我 们 位 于 正在 
寻找 的 节点 的 前 面 , 或 者 它 不 在 这 个 表 中 。 为 了 执行 一 次 insert 操作 , 我 们 像 在 执行 一 次 查找 
时 那样 进行 , 始终 记 住 每 一 个 使 我 们 转 到 一 个 更 低 阶 的 节点 。 最 后 , 将 新 节点 ( 它 的 阶 是 随机 确 
定 的 ) 拼 接 到 链表 中 。 操 作 见 图 10-61. 





10-61 插入 前 和 插入 后 的 跳跃 表 


粗略 分 析 指 出 , 由 于 在 每 一 阶 的 节点 的 期 望 个 数 没有 从 原 ( 非 随机 化 的 ) 算 法 改变 , 因此 预计 
穿越 同 阶 上 的 节点 的 总 的 工作 量 是 不 变 的 。 它 告诉 我 们 , 这 些 操作 具有 O(log N ) 的 期 望 开销 。 
当然 , 更 正式 的 证 明 是 需要 的 , 但 它 跟 这 里 的 分 析 没 有 太 大 的 区 别 。 

BIEBK RAUF BON, 它们 都 需要 估计 链表 中 的 元 素 个 数 ( 从 而 阶 的 数目 可 以 确定 )。 如 果 
得 不 到 这 种 估计 , 那么 我 们 可 以 假设 一 个 大 的 数 或 者 使 用 一 种 类 似 于 再 散 列 (rehash) 的 方法 。 经 
验 表 明 , 跳跃 表 如 许多 平衡 查找 树 实现 方法 一 样 有 效 ， 当 然 , 用 多 种 语言 实现 都 会 简单 得 多 。 
10.4.3 素性 测试 

在 这 一 节 , 我 们 考查 确定 一 个 大 数 是 否 是 素数 的 问题 。 正 如 在 第 2 章 末 尾 谈 到 的 , 某 些 密码 
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方案 依赖 于 大 数 分 解 的 困难 性 , 比如 将 一 个 400 位 数 分 解 成 两 个 200 位 的 素数 相 乘 。 为 了 实现 这 
种 方案 , 需要 一 种 生成 这 两 个 大 素数 的 方法 。 如 果 a BRN 中 的 数字 的 位 数 , 那么 测试 能 否 被 


从 3 到 VN 的 奇数 整除 的 明显 的 方法 大 约 需 要 方 VN 次 除法 , 它 大 约 为 2422, 可 这 对 于 200 位 的 


整数 是 完全 不 实际 的 方法 。 

在 这 一 节 , 我 们 将 给 出 一 个 可 以 测试 素性 的 多 项 式 时 间 算 法 。 如 果 这 个 算法 宣称 一 个 数 不 
是 素数 , 那么 我 们 可 以 肯定 这 个 数 不 是 素数 。 如 果 该 算法 宣称 一 个 数 是 素数 , 那么 , 这 个 数 将 以 
高 概率 但 不 是 百分之百 地 肯定 是 素数 。 错 误 的 概率 不 依赖 于 被 测试 的 特定 的 数 , 而 是 依赖 于 由 
算法 做 出 的 随机 选择 。 因 此 , 这 个 算法 偶尔 会 出 错 , 不 过 我 们 将 会 看 到 , 我 们 可 以 让 出 错 的 比率 
任意 地 小 。 

算法 的 关键 是 著名 的 费 马 (Fermat) 定 理 。 

定理 10.10 (ABEM) WR P 是 素数 , 且 0<A<P, HA A” '=1(mod P) 

WERA: 

这 个 定理 的 证 明 可 以 在 任 一 本 数论 的 教科 书 中 找到 。 i 

例如 ,由 于 67 ARR, 因此 2%=1(mod 67)。 这 提出 了 测试 一 个 数 N 是 否 是 素数 的 算法 : 
只 要 检验 一 下 是 否 2 '=1 (mod N)。 如 果 2^ 1 天 1(mod N) 不 成 立 , 那么 可 以 肯定 N 不 是 素 
数 。 另 一 方面 ,如 果 等 式 成 立 , BAN 很 可 能 是 素数 。 例 如 , WE 2" ' 三 1(mod N) 但 不 是 素数 
的 最 小 的 N 是 N=341。 

这 个 算法 偶尔 会 出 错 , 但 问题 是 它 总 出 相同 的 一 些 错误 。 换 句 话 说 , FEN 的 一 个 固定 的 
集合 , 对 于 这 个 集合 该 方法 行 不 通 。 我 们 可 以 尝试 将 该 算法 随机 化 如 下 : 随机 取 1<A<N-1。 
如 果 A= (mod N), WEH N 可 能 是 素数 ,否则 宣布 N 肯定 不 是 素数 。 如 果 N = 341 而 
A=3, 那么 33 三 56(mod 341)。 因 此 , 如 果 算 法 碰巧 选择 A —3, 那么 它 将 对 于 N = 341 得 到 正 
确 的 答案 。 

虽然 这 看 起 来 没有 问题 , 但 是 却 存在 一 些 数 , 对 于 A 的 大 部 分 选择 它们 甚至 可 以 骗 过 该 算 
法 。 这 样 的 数 集 叫 做 Carmichael 数 , 这 些 数 不 是 素数 , 可 是 对 所 有 与 N 互 素 的 0<A<N 却 满足 
A"^!z(mod N)。 这 样 最 小 的 数 是 561。 因 此 , 我 们 还 需要 一 个 附加 的 测试 来 改进 不 出 错 的 
几率 。 

在 第 7 章 , 我 们 证 明 过 一 个 关于 平方 探测 (quadratic probing) 的 定理 。 这 个 定理 的 特殊 情况 
如 下 : 

定理 10.11 如 果 己 是 素数 且 0<X<P, 那么 X?-1(mod P) 仅 有 的 两 个 解 为 X=1, P- 1. 

证 明 : 

X’ 三 1(mod P) 意 味 着 X? 一 1 三 0(mod P)。 这 就 是 说 , (X - 1)(X € 1)50(mod P)。 由 于 P 
ERK, 0<X<P, 因此 P 必然 是 或 者 整除 (X 一 1) , 或 者 整除 (X+ 1), 由 此 推出 定理 。 ni 

因此 , 如 果 在 计算 AN (mod N) 的 任 一 时 刻 我 们 发 现 违背 了 该 定理 , 那么 可 以 断言 N 肯定 
不 是 素数 。 如 果 使 用 2.4.4 节 的 方法 pow, 那么 我 们 看 到 将 有 几 种 机 会 来 实现 这 种 测试 。 修 改 执 
行 mod N 运算 的 例 程 并 应 用 定理 10.11 的 测试 。 这 种 方法 在 图 10-62 中 以 伪 码 实现 。 

我 们 知道 ， 如 果 方 法 witness 返回 任何 不 是 1 OR, 那么 它 就 已 经 证 明了 N 不 可 能 是 素数 ， 
其 证 明 是 非 构 造 性 的 ,因为 它 并 没有 具体 给 出 找到 因子 的 方法 。 业 已 证 明 , 对 于 任何 (充分 大 的 ) 
N, 至 多 有 A 的 (NN 一 9) /4 个 值 会 使 该 算法 得 出 错误 的 结论 。 因 此 , 如 果 A 是 随机 选取 的 , 而 且 
算法 的 结论 是 N( 很 可 能 ) 为 素数 , 那么 算法 至 少 有 75% 的 时 机 是 正确 的 。 设 方法 witness 运行 


SO 次 ,而 算法 得 出 错误 结论 的 概率 是 二 。 因 此 ,50 次 独立 的 随机 试验 使 算法 出 错 的 概率 决 不 会 
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** 


* Method that implements the basic primality test. If witness does not return 1, 
* n is definitely composite. Do this by computing a^i (mod n) and looking for 


* nontrivial square roots of 1 along the way. 
* 


private static long witness( long a, long i, long n ) 


{ 


ON OV UA -& WH 


if( i == 0) 
return 1; 


long x » witness( a, i / 2, n ); 
if( x == 0) // 1f n is recursively composite, stop 
return 0; 


// n is not prime if we find a nontrivial square root of 1 
longy*(x*x)*n 
if( y == 1 8& x != 1 8&k x !5n- 1) 

return 0; 


if( i $2 120) 
y=(a*y)%n; 


return y; 


“* 

* The number of witnesses queried in randomized primality test. 
a 

public static final int TRIALS = 5; 


== 

* Randomized primality test. 

* Adjust TRIALS to increase confidence level. 
* @param n the number to test. 

* @return if false, n is definitely not prime. 
* If true, n is probably prime. 

* 
public static boolean isPrime( long n ) 

{ 


Random r = new Random( ); 
for( int counter = 0; counter < TRIALS; counter++ ) 
if( witness( r.randomLong{ 2, n-2), n- 1, n) !* 1) 


return false; 


return true; 





图 10-62 一 种 概率 素性 测试 算法 ( 伪 码 ) 


超过 1/4”=2 ""”。 实 际 上 这 是 非常 保守 的 估计 , 它 只 对 N 的 某 些 选择 成 立 。 即 使 如 此 ， 人 们 更 
可 能 看 到 的 是 硬件 的 错误 ,而 不 是 对 于 素性 的 不 正确 的 判断 。 
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素性 测试 的 随机 化 算法 很 重要 , 因为 这 些 算法 一 直 比 非 随机 化 算法 要 显著 地 快 。 虽 然 随机 
化 算法 可 能 偶尔 会 产生 错误 的 结果 , 但 是 其 发 生 的 机 会 可 以 限制 到 足够 小 , 可 以 忽略 不 计 。 

多 年 以 来 , 人 们 怀疑 是 否 有 可 能 以 d 的 多 项 式 的 时 间 测 定 一 个 d 位 数字 的 数 的 素性 , 但 是 , 没有 
人 知道 这 样 的 算法 。 可 是 最 近 , 素性 测试 的 确定 性 多 项 式 时 间 算 法 已 经 被 发 现 。 虽 然 这 些 算法 是 极其 
令 人 兴奋 的 成 果 , 但 是 它们 尚 不 能 与 随机 化 算法 竞争 。 参 考 文献 的 末尾 提供 了 更 多 的 信息 。 


10.5 ”回溯 算法 


我 们 将 要 考查 的 最 后 一 个 算法 设计 技巧 是 回 漳 (backtracdking) 算 法 。 在 许多 情况 下 , 回溯 算法 相当 
于 穷 举 搜索 的 巧妙 实现 , 但 性 能 一 般 不 理想 。 不 过 , 情况 并 不 总 是 如 此 , 即使 是 如 此 , 在 某 些 情形 下 
它 相 对 于 蛮 力 穷 举 搜索 的 工作 量 也 有 显著 的 节省 。 当 然 , 性 能 是 相对 的 : 对 于 排序 而 言 ， O(N?) 的 算 
法 是 相当 差 的 , 但 对 旅行 售货员 (或 任何 NP 完全 ) 问 题 , O(N5) 算 法 则 是 里 程 碑 式 的 结果 。 

回 漳 算 法 的 一 个 具体 例子 是 在 一 套 新 房子 内 摆 放 家 具 的 问题 。 存 在 许多 尝试 的 可 能 性 , 但 
一 般 只 有 一 些 可 能 是 具体 要 考虑 的 。 开 始 什 么 也 不 摆 放 , 然后 是 每 件 家 具 被 摆 放 在 室内 的 某 个 
部 位 。 如 果 所 有 的 家 具 都 已 摆好 而 且 户 主 很 满意 , 那么 算法 终止 。 如 果 摆 到 某 一 步 , 该 步 之 后 的 
所 有 家 具 摆 放 方 法 都 不 理想 , 那么 我 们 必须 撤销 这 一 步 并 尝试 该 步 另外 的 摆 放 方法 。 当 然 , 这 也 
可 能 导致 另外 的 撤销 , 等 等 。 如 果 我 们 发 现 我 们 撤销 了 所 有 可 能 的 第 一 步 摆 放 位 置 , 那么 就 不 存 
在 满意 的 家 具 摆 放 方 法 。 否 则 , 我 们 最 终 将 终止 在 满意 的 位 置 上 摆 放 。 注 意 , 虽然 这 个 算法 基本 
上 是 蛮 力 的 , 但 是 它 并 不 直接 尝试 所 有 的 可 能 。 例 如 , 考虑 把 沙发 放 进 厨房 的 各 种 摆 法 是 决 不 会 
尝试 的 。 许 多 其 他 不 好 的 摆 放 方法 早 就 取消 了 , 因为 令 人 讨厌 的 摆 放 的 子 集 是 知道 的 。 在 一 步 
内 删除 一 大 组 可 能 性 的 做 法 叫做 裁剪 (pruning)。 

我 们 将 看 到 回溯 算法 的 两 个 例子 。 第 一 个 是 计算 几何 中 的 问题 , 第 二 个 例子 阐述 在 诸如 国 
际 象棋 和 西洋 跳棋 的 对 弈 中 计算 机 如 何 选取 行 棋 的 步骤。 
10.5.1 收费 公路 重建 问题 

设 给 定 NN 个 点 pi1, Pss Pn, 它们 位 于 z- 轴 上 。z; J& p; 点 的 z 坐标。 进一步 假设 z=0 以 
及 这 些 点 从 左 到 右 给 出 。 这 N 个 点 确定 在 每 一 对 点 间 的 N(N-1)LZ 个 (不 必 是 唯一 的 ) 形 如 
Ix; — x;| (i25; ) HER. BR, 如 果 给 定点 集 , 那么 容易 以 O(N?) 时 间 构 造 距离 的 集合 。 这 个 集 
合 将 不 是 排 好 序 的 , BÆ, 如 果 我 们 愿意 花 O(N’log N) 时 间 界 整理 , 那么 这 些 距 离 也 可 以 被 排 
序 。 收 费 公路 重建 问题 (tumpike reconstruction problem) 是 从 这 些 距 离 重新 构造 出 点 集 。 它 在 物理 
学 和 分 子 生物 学 (参见 有 关 该 信息 更 专门 的 参考 文献 ) 中 都 有 应 用 。 这 个 名 称 来 源 于 对 美国 西海 
岸 公路 上 那些 收费 公路 出 口 的 模拟 。 正 像 大 数 分 解 比 乘法 困难 一 样 ,重建 问题 也 比 建造 问题 困 
难 。 没 有 人 能 够 给 出 一 个 算法 以 保证 在 多 项 式 时 间 完 成 计算 。 我 们 将 要 介绍 的 算法 一 般 以 
O(N?log N) 运 行 , 但 在 最 坏 情形 下 可 能 要 花费 指数 时 间 。 

“GR, 若 给 定 该 问题 的 一 个 解 , 则 可 以 通过 对 所 有 的 点 加 上 一 个 偏 移 量 而 构建 无 穷 多 其 他 的 
解 。 这 就 是 为 什么 我 们 一 定 要 将 第 一 个 点 置 于 0 处 以 及 构建 解 的 点 集 以 非 减 顺序 输出 的 原因 。 

^ D 是 距离 的 集合 , 并 设 |1D1= M= N(N -1)/2。 作 为 例子 , 设 

D= [1,2,2,2,3,3,3,4,5,5,5,6,7,8,101 

由 于 |1D|=15, 因此 我 们 知道 N=6。 算 法 以 置 zx; =0 开始 。 显 然 , zx6 = 10, 因为 10 是 DD 中 最 大 
的 元 素 。 将 10 从 D 中 删除 , 我 们 得 到 的 点 和 剩 下 的 距离 如 下 图 所 示 。 


x i70 x -]0 
D 711.22,23.33,4,5.5,5,6,7.8] 
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剩 下 的 距离 中 最 大 的 是 8, 这 就 是 说 , 或 者 2,72, 或 者 zs=8。 由 对 称 性 , 我 们 可 以 断定 这 
种 选择 是 不 重要 的 ,因为 或 者 两 个 选择 都 引 向 解 ( 它 们 互 为 镜像 ), 或 者 都 不 会 引 向 最 终 的 解 ,所 
以 可 置 xz; 8 而 不 至 于 影响 问题 的 解 , 然 后 从 D 中 删除 距离 ze- zs=2 和 25-27, =8, 得 到 

一 二 一 
x=0 x=8 — X10 
D-711.2.2.3.3,3,4.5.5.5.6,7] 

下 一 步 是 不 明显 的 。 由 于 7 是 D 中 最 大 的 数 , 因此 或 者 z4 =7, 或 者 zz=3。 如 果 x77, 
那么 距离 xi -7=3 和 zs-7=1 也 必须 出 现在 D 中 。 我 们 一 看 便 知 它们 确实 在 D 中 。 另 一 方 
Ej, WRB z,=3, 那么 3- zi=3 和 <zs-3=5 就 必须 在 D 中 。 这 两 个 距离 也 的 确 在 D 中 。 因 
此 , 我 们 不 对 哪 种 选择 做 强求 。 这 样 , 我 们 尝试 其 中 的 一 种 看 是 否 它 导 致 问 题 的 解 。 如 果 它 不 
fi. 那么 我 们 退回 来 再 尝试 男 外 的 选择 。 尝 试 第 一 个 选择 置 zs=7, 得 到 

一 | 一 


x,=0 x=? xE8 x= 10 
D-712,2.3,3.4.5.5.5.6] 


此 时 , 我 们 得 到 x,=0,xs=7,xs=8 和 x6=10。 现在 最 大 的 距离 是 6, 因此 或 者 x3= 6 或 
者 2,24, 但 是 , WR zs=6, 那么 zs ~ x3=1, 这 是 不 可 能 的 , 因为 1 不 再 属于 D。 另 一 方面 ， 
如 果 rz=4, 那么 zz- zo=4 和 <xzs- zz=4。 这 也 是 不 可 能 的 , 因为 4 只 在 D 中 出 现 一 次 。 因 
JC, 这 个 推理 思路 得 不 到 解 , 我 们 需要 回 湖 。 

由 于 x4=7 REFER, 因此 我 们 尝试 rz: =3。 如 果 这 也 不 行 , 那么 我 们 停止 计算 并 报告 无 
解 。 现 在 , 我 们 有 


x,=0 xs=8 2x70 


D a 1 1.22,3,34.5.5.61 
我 们 必须 再 一 次 在 zs =6 和 x3=4 之 间 选 择 。xz;=4 是 不 可 能 的 , 因为 D 只 出 现 一 个 4, 而 
该 选择 意味 着 要 有 两 个 。z4=6 是 可 能 的 , 于 是 我 们 得 到 
x,=0 x,=3 1=6 — X8  X-10 
D 711.2.3,5.5] 
唯一 剩 下 的 选择 是 xz; = $; 这 是 可 以 的 , 因为 它 使 得 D 成 为 空 集 ， 因 此 我 们 得 到 问题 的 一 个 解 。 
一 -一 下 一 一 


D-i 


图 10-63 是 一 棵 决策 树 , 代表 为 得 到 解 而 采取 的 行动 。 这 里 ,我 们 没有 对 分 支 作 标记 ， 而 是 
把 标记 放 在 了 分 支 的 目的 节点 上 。 带 有 一 个 星 号 的 节点 表示 这 些 所 选 的 点 与 给 定 的 距离 不 一 致 ; 
带 有 两 个 星 号 的 节点 只 有 不 可 能 的 节点 作为 儿子 , 因此 表示 一 条 不 正确 的 路 径 。 

实现 这 个 算法 的 伪 代 码 大 部 分 都 很 简单 。 驱 动 例 程 turnpike 如 图 10-64 所 示 。 它 接收 点 的 
数组 x( 不 需要 初始 化 ), 距离 的 集合 D 和 N9。 如 果 找 到 一 个 解 , 则 返回 true, 答案 将 被 放 到 x 
+, 而 品 将 是 空 集 。 否 则 , 返回 false, x 将 是 不 确定 的 , 距离 集合 D 将 保持 不 变 。 该 例 程 如 上 
MERE T xy ry A zy, 修改 了 D, 并 且 调 用 了 回溯 算法 place 以 放置 其 余 的 点 。 我 们 假设 
为 保证 |D| = N(N -1) 人 /2 已 经 进行 了 检验 。 


〇 ”为 使 所 举 的 例子 方便 起 见 ,我 们 使 用 了 单字 母 变 基 名 ,一 般 说 来 这 不 是 好 习惯 。 为 了 简单 ,我 们 也 不 给 出 变 基 的 类 
型 。 最 后 ,我 们 让 数组 下 标 从 ! 开始 ,而 不 是 从 0。 
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图 10-63 ”收费 公路 重建 问题 的 决策 树 





boolean turnpike( int [ ] x, DistSet d, int n ) 
{ 


xf 1] = 0; 

x[ n ] = d.deleteMax( ); 

x[ n - 1 ] = d.deleteMax( ); 

if( xXtn] - x(n-1]€d) 

{ 
d.remove( x[n] - x([n-11] ); 
return place( x, d, n, 2, n- 2); 


else 
return false; 





图 10-64 收费 公路 重建 算法 : 驱动 例 程 ( 伪 代码 ) 


更 困难 的 部 分 是 回潮 算法 ,如 图 10-65 所 示 。 与 大 多 数 回 漳 算法 一 样 ,最 方便 的 实现 方法 是 
递归 。 我 们 传递 同样 的 参数 以 及 界 Left 和 Rights xg s ziw 是 我 们 试图 放置 的 点 的 z 坐标 。 
如 果 DEZE Left > Right), 那么 解 已 经 找到 , 我 们 可 以 返回 。 BW, 首先 尝试 使 Trig = 
Du。 如 果 所 有 适当 的 距离 都 (以 正确 的 值 ) 出 现 , 那么 尝试 性 地 放 上 这 一 点 , 删除 相应 的 距离 ， 
并 尝试 从 Left 到 Right - 1 填 人 。 如 果 这 些 距 离 不 出 现 , 或 者 从 Left 到 Right -1 填 入 尝试 失败 ， 
那么 尝试 置 run = zN dw 使 用 类 似 的 做 法 。 如 果 这 样 不 行 , 则 问题 无 解 ; 否则 , 一 个 解 已 经 
找到 ,而 这 个 信息 最 终 通 过 return 语句 和 x 数组 传递 回 turnpike, 

算法 的 分 析 涉 及 两 个 因素 。 设 第 9 行 到 第 11 行 以 及 第 18 行 到 第 20 行 从 未 执行 。 我 们 可 以 
把 D 作为 平衡 二 叉 查 找 ( 或 伸展 ) 树 保存 (当然 , 这 和 需要 对 代码 做 些 修改 )。 如 果 我 们 从 未 回潮 ， 
那么 最 多 有 O(N?) 次 操作 涉及 D, 如 在 第 4 行 、 第 12 到 13 行 中 蕴涵 的 删除 和 一 些 contains。 显 
然 这 是 对 删除 提出 的 , 因为 D 有 O(N”) 个 元 素 而 没有 元 素 被 重新 插 和 人 。 每 次 对 place 的 调用 最 
多 用 到 2N 次 contains, 而 由 于 place 在 该 分 析 中 从 未 回溯 ,因此 最 多 可 以 有 2N? 次 contains 操 
TE. Fit, 如果 没有 回溯 ,那么 运行 时 间 为 O(N?log N)。 

当然 , 回溯 是 要 发 生 的 。 如 果 回 溯 反 复发 生 , 那么 算法 的 性 能 就 要 受到 影响 。 我 们 可 以 通过 
构建 病态 的 情形 人 迫使 它 发 生 。 经 验证 明 , 如 果 点 的 整数 坐标 在 [0，D's 均匀 地 和 随机 地 分 布 ， 
其 中 D, = 6(N?), 那么 在 整个 算法 期 间 几 乎 肯定 最 多 执行 一 次 回溯 。 
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/** 
* Backtracking algorithm to place the points x[left] ... x[right]. 
* x[1)...x(left-1] and x[right*1]...x[n] already tentatively placed. 
* If place returns true, then x[left]...x(right] will have values. 
* 

boolean place( int [ ] x, DistSet d, int n, int left, int right ) 


int dmax; 
boolean found = false; 


if( d.isEmpty( ) ) 
return true; 


dmax = d.findMax( ); 


// Check if setting x[right] = dmax is feasible. 
if( | x[j] - dmax | € d for all 1<j<left and right<j<n ) 
( 
x[right] = dmax; // Try x(right]-dmax 
for( 1<j<left, right<j<n ) 
d.remove( | x[j] - dmax | ); 
found = place( x, d, n, left, right-1 ); 


if( !found ) // Backtrack 
for( 1<j<left, right<j<n ) // Undo the deletion 
d.insert( | x[j] - dmax | ); 


// If first attempt failed, try to see if setting 
// x[left]-x[n]-dmax is feasible. 
lfound && ( | x[n] - dmax - x[j] | e d 

for all 1<j<left and right<j<n ) ) 


x[left] = x[n] - dmax; // Same logic as before 
for( 1€j«left, right<j<n ) 

d.remove( | x[n] - dmax - x[j] | ); 
found = place( x, d, n, left*1, right ); 


if( !found ) // Backtrack 
for( 1<j<left, right<j<n ) // Undo the deletion 
d.insert( | x[n] - dmax - x[j] | ); 
] 


return found; 





图 10-65 ”收费 公路 重建 算法 : 回溯 的 步骤 ( 伪 代码 ) 


10.5.2 博弈 


作为 最 后 一 个 应 用 , 我 们 将 考虑 计算 机 可 能 用 来 进行 战略 游戏 的 策略 , 如 西洋 跳棋 或 国际 象 
棋 。 作 为 一 个 例子 , 我 们 将 使 用 较 简 单 的 三 连 游戏 棋 {tic-tac-toe)， 因 为 它 使 得 想法 更 容易 
表述 。 
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如 果 双 方 均 弈 至 最 优 , 那么 三 连 游戏 棋 就 是 平局 。 通 过 对 逐个 情况 的 仔细 分 析 , 构造 一 个 从 
不 输 棋 而 且 当 机 会 出 现时 总 能 赢 棋 的 算法 并 不 是 困难 的 事 。 之 所 以 能 够 做 到 是 因为 一 些 位 置 是 
已 知 的 陷阱 , 可 以 通过 查 表 来 处 理 。 另 外 一 些 方法 , 如 当中 央 的 方 格 可 用 时 占据 该 方 格 , 可 以 使 
得 分 析 更 简单 。 如 果 完 成 了 分 析 , 那么 通过 一 个 表 我 们 总 可 以 只 根据 当前 位 置 选 择 一 步 棋 。 当 
然 , 这 种 方法 需要 程序 员 而 不 是 计算 机 来 进行 大 部 分 的 思考 。 

极 小 极 大 策略 

较 一 般 的 策略 是 使 用 一 个 赋值 函数 来 给 一 个 位 置 的 “好 坏 ” 定 值 。 能 使 计算 机 获胜 的 位 置 可 
以 得 到 值 + 1; 平局 可 得 到 0; 使 计算 机 输 棋 的 位 置 得 到 值 - 1。 通 过 考察 盘面 就 能 够 确定 输赢 的 
位 置 叫做 终端 位 置 (terminal position)。 

如 果 一 个 位 置 不 是 终端 位 置 , 那么 该 位 置 的 值 通过 递归 地 假设 双方 最 优 棋 步 而 确定 。 这 叫 
做 极 小 极 大 (minimax) 策 略 , 因为 下 棋 的 一 方 (人 ) 试 图 使 这 个 位 置 的 值 极 小 ， 而 另 一 方 (计算 机 ) 
却 要 使 它 的 值 极 大 。 

位 置 P 的 后 继 位 置 (successor position) 是 通过 从 已 走 一 步 棋 可 以 达到 的 任何 位 置 已 。 如 果 当 
在 某 个 位 置 已 计算 机 要 走 棋 , 那么 它 递 归 地 求 出 所 有 的 后 继 位 置 的 值 。 计 算 机 选择 具有 最 大 值 
的 一 步行 棋 ; 这 就 是 P 的 值 。 为 了 得 到 任意 后 继 位 置 P, 的 值 , 要 递归 地 算出 P, 的 所 有 后 继 位 置 
的 值 , 然后 选取 其 中 最 小 的 值 。 这 个 最 小 值 代表 行 棋 的 人 的 一 方 最 赞成 的 应 着 。 

图 10-66 中 的 程序 使 得 计算 机 的 策略 更 清晰 。 第 22 行 到 第 25 行 直接 给 赢 棋 或 平局 赋值 。 如 
果 这 两 个 情况 都 不 适用 , 那么 这 个 位 置 就 是 非 终端 位 置 。 注 意 到 value 应 该 包括 所 有 可 能 后 继 位 
置 的 最 大 值 , 第 28 行 把 它 初始 化 为 最 小 可 能 的 值 , 第 29 行 到 第 42 行 的 循环 则 为 了 改进 而 进行 
搜索 。 每 一 个 后 继 位 置 递 归 地 依次 由 第 32 行 到 第 34 行 算 出 值 来 。 因 为 我 们 将 看 到 过 程 
findHumanMove 调用 findCompMove, 所 以 这 是 递归 的 。 如 果 人 对 一 步 棋 的 应 着 给 计算 机 留 下 比 计 
算 机 在 前 面 最 佳 棋 步 所 得 到 的 位 置 更 好 的 位 置 , 那么 value 和 bestMove 将 被 更 新 。 图 10-67 显示 
的 是 下 棋 人 棋 步 选择 的 方法 。 除 了 行 棋 人 选择 的 棋 步 导致 最 低 值 的 位 置 外 , 所 有 的 逻辑 实际 上 
都 是 相同 的 。 事 实 上 , 通过 传递 一 个 附加 的 变量 不 难 把 这 两 个 过 程 合并 成 一 个 , 这 个 附加 变量 指 
出 棋 该 轮 到 谁 走 。 这 样 一 来 确实 使 得 程序 多 少 有 些 难 于 读 懂 了 , 因此 我 们 就 停留 在 两 个 分 开 的 
例 程 的 阶段 。 


pub1ic c1ass MoveInfo 
{ 


public int move; 
public int value; 


public MoveInfo( int m, int v ) 
( move = m; value = v; ) 


[** 

* Recursive method to find best move for computer. 

* MoveInfo.move returns a number from 1-9 indicating square. 
* Possible evaluations satisfy COMP LOSS « DRAW « COMP WIN. 
* Complementary method findHumanMove is Figure 10.67. 


* 


public MoveInfo findCompMove( ) 
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int i, responseValue; 
int value, bestMove = 1; 
MoveInfo quickWinInfo; 


if( ful!Board( ) ) 
value = DRAW; 

else if( ( quickWinInfo = immediateCompWin( ) ) != null ) 
return quickWinInfo; 

else 


value = COMP LOSS; 

for( i = 1; i <= 9; i++ ) // Try each square 
if( isEmpty( i ) ) 
{ 


place( i, COMP ); 
responseValue = findHumanMove( ).value; 
unplace( i ); // Restore board 


if( responseValue > value ) 


{ 
// Update best move 
value = responseValue; 
bestMove - i; 


} 


return new MoveInfo( bestMove, value ); 





10-66 (£x) 


public MoveInfo findHumanMove( ) 
{ 


int i, responseValue; 
int value, bestMove = 1; 
MoveInfo quickWinInfo; 


if( fullBoard( ) ) 
value = DRAW; 

else 

if( ( quickWinInfo = immediateHumanWin( ) ) != null ) 
return quickWinInfo; 

else 


{ 


wan DAU A WN = 


value = COMP WIN; 





图 10-67 极 小 极 大 三 连 游戏 棋 算 法 : 人 的 选择 
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for( i = 1; i <= 9; i++ ) // Try each square 
{ 
if( isEmpty( i ) } 
{ 
place( i, HUMAN ); 
responseValue = findCompMove( ).value; 
unplace( i ); // Restore board 


if( responseValue « value ) 
( 


// Update best move 
value = responseValue; 
bestMove = i; 
} 
} 
} 
} 


return new MoveInfo( bestMove, value ); 





10-67 ( 续 ) 


由 于 这 两 个 例 程 必须 要 传 回 位 置 的 值 和 最 佳 的 棋 步 , 因此 在 MoveInfo 对 象 中 传递 这 两 个 
变量 。 

我 们 把 一 些 支撑 例 程 留 作 一 道 练 习题 。 代 价 最 高 的 计算 是 需要 计算 机 开局 的 情形 。 由 于 在 
这 个 阶段 棋局 处 于 平局 的 形势 , 因此 计算 机 选择 方 格 19。 需 要 考查 的 位 置 总 共有 97 162 4, 计 
算 要 花费 几 秒 。 没 有 优化 程序 的 打算 。 如 果 下 棋 人 选择 中 央 方 格 , 那么 当 计 算 机 走 第 二 步 棋 的 
时 候 , 所 要 考查 的 位 置 的 个 数 是 5 185 个 ; 当下 棋 人 选择 一 个 角 上 的 方 格 时 计算 机 所 要 考查 的 位 
置 的 个 数 是 9 761 个 , 而 当下 棋 人 选择 非 角 的 边 上 的 方 格 时 计算 机 要 考查 13 233 个 位 置 。 

对 于 更 复杂 的 游戏 (如 西洋 跳棋 和 国际 象棋 ), 搜索 到 终端 节点 的 全 部 棋 步 显然 是 不 可 行 
的 ?。 在 这 种 情况 下 ,我 们 在 达到 递归 的 某 个 深度 之 后 只 能 停止 搜索 。 递 归 停止 处 的 节点 则 成 为 
终端 节点 。 这 些 终端 节点 的 值 由 一 个 估计 位 置 的 值 的 函数 计算 得 出 。 例 如 , 在 一 个 国际 象棋 程 
FF, 求 值 函数 计量 诸如 棋子 和 位 置 因素 的 相对 量 和 强度 这 样 一 些 变量 。 求 值 函 数 对 于 成 功 是 
至 关 重 要 的 , 因为 计算 机 的 行 棋 选 步 是 基于 将 这 个 函数 极 大 化 。 最 好 的 计算 机 下 棋 程序 具有 惊 
人 复杂 的 求 值 函数 。 

然而 , 对 于 计算 机 下 棋 , 一 个 最 重要 的 因素 看 来 是 程序 能 够 向 前 看 出 的 棋 步 的 数目 。 有 时 我 
NAZAR (ply); 它 等 于 递归 的 深度 。 要 实现 这 个 功能 , 需要 给 予 搜 索 例 程 一 个 附加 的 参数 。 

在 对 弈 程序 中 增加 向 前 看 步 因素 的 基本 方法 是 提出 一 些 方法 , 这 些 方 法 对 更 少 的 节点 求 值 
却 不 丢失 任何 信息 。 我 们 已 经 看 到 的 一 种 方法 是 使 用 一 个 表 来 记录 所 有 已 经 被 计算 过 的 值 的 位 
置 。 例 如 , 在 搜索 第 一 步 棋 的 过 程 中 , 程序 将 考查 图 10-68 中 的 一 些 位 置 。 如 果 这 些 位 置 的 值 被 
FAS, 那么 一 个 位 置 在 第 二 次 出 现时 就 不 必 再 重新 计算 ; 它 基本 上 变 成 了 一 个 终端 位 置 。 记 录 


O ”我 们 将 方 格 从 棋盘 左上 角 开 始 向 右 编号 。 不 过 ,这 只 对 支撑 例 程 是 重要 的 。 
据 估 计 . 即 使 是 本 节 稍 后 描述 的 改进 方法 结合 使 用 .这 个 数字 也 不 能 降低 到 实用 的 水 平 。 
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这 些 信息 的 数据 结构 叫做 置换 表 (transposition table); 它 几乎 总 可 通过 散 列 来 实现 。 在 许多 情况 
F, 这 可 以 节省 大 量 的 计算 。 例 如 , 在 一 盘 棋 的 残局 阶段 ， _ | X ox xlox 
此 时 相对 来 说 只 有 很 少 的 棋子 ， 时 间 的 节省 使 得 一 步 搜索 it-idi- 十 一 


可 以 进行 到 更 深 的 若干 层 。 x xlo xlolx 

“am 御 - 畦 - 畦 - 
人 们 一 般 能 够 取得 的 最 重要 的 改进 称 为 a-P RY ( 0-8 

pruning)。 图 10-69 显示 在 一 盘 假想 的 棋局 中 用 来 给 某 个 ”图 10-68 到 达 同 一 位 置 的 两 种 搜索 

假设 的 位 置 求 值 的 一 些 递归 调用 的 迹 。 通 常 这 叫做 一 棵 博弈 树 (game tree)。( 到 现在 为 止 我 们 一 

直 回 避 使 用 这 个 术语 , 因为 它 多 少 有 些 误导 : 没有 树 是 由 该 算法 具体 构造 的 。 博 弈 树 只 是 一 个 抽 

象 的 概念 。) 这 棵 博弈 树 的 值 为 44。 


E 
S 
B 
5) 
z 
2 


9 4 68 78 w 5 66 5 Min 

OOo © à) 6b GO) dÓ G9 G6 doó CQ) €&» 6b Go GÀ 的 Ma 

42050207) 0269 C4460 68) 036» 080209 0?030360 409 (90 656) 6269 0969 (5565 1269 
图 10-69 一 棵 假想 的 博弈 树 


图 10-70 显示 同一 棵 博弈 树 的 求 值 , 它 有 一 些 ( 但 不 是 所 有 可 能 的 ) 尚 未 求 值 的 节点 。 几 乎 有 
一 半 的 终端 节点 没有 被 检验 。 我 们 证 明 计 算 它们 的 值 将 不 改变 树 根 的 值 。 


és 
(5 
= 


d O6 € &à & OO Q O d & Q & Q5 DO Mx 
0900069 0036068:09O O OO 899604 (9090OOOOOOOOO00 
图 10-70  — PR BLARNEY 


首先 , 考虑 节点 D. FH 10-71 显示 在 给 DD 求 值 时 已 经 搜集 到 的 信息 。 此 时 , 我们 仍然 处 在 
findHumanMove 中 并 正在 打算 对 D 调用 findCompMove。 然 而 , 我 们 已 经 知道 findHumanMove 最 多 
将 返回 40, 因为 它 是 一 个 nin 节点 。 另 一 方面 , CH max 父 节点 已 经 找到 一 个 保证 44 的 序列 。 
注意 , D 无 论 如 何 也 不 可 能 增加 这 个 值 。 因 此 ，D 不 需要 求 值 。 该 树 的 这 个 裁减 叫做 a RM. 
同样 的 情况 也 出 现在 节点 B。 为 了 实现 裁减 ,findCompMove 将 它 的 尝试 性 的 极 大 值 (a ) 传 递 给 
findHumanMove。 如 果 findHumanMove 的 尝试 性 的 极 小 值 低 于 这 个 值 , 那么 findHumanMove 立即 
返回 。 
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E 10-71 标记 ? 的 节点 是 不 重要 的 


类 似 的 情况 也 发 生 在 节点 A 和 C 上 。 这 一 次 , 我 们 在 findCompMove 的 中 间 , 并 且 正 要 调用 
findHumanMove 以 计算 C 的 值 。 图 10-72 显示 在 节点 C 遇 到 的 情况 。 不 过 在 min 层 上 , 调用 了 
findCompMove 的 findHumanMove, 已 经 确定 它 能 够 迫使 值 最 高 到 44( 注 意 , 对 于 下 棋 人 这 一 方 低 值 
是 好 的 )。 由 于 findCompMove 有 一 个 尝试 性 的 最 大 值 68, 因此 C 上 无 论 如 何 也 不 会 影响 到 min 层 
这 个 结果 。 因 此 , C 不 应 该 求 值 。 这 种 类 型 的 裁减 叫做 8 裁减 , 它 是 a 裁减 的 对 称 形 式 。 当 两 种 
方法 结合 起 来 时 就 得 到 a-8 裁减 。 





图 10-72 标记 ? 的 节点 是 不 重要 的 


实现 a-8 裁减 所 需 代码 少 得 惊人 。 图 10-73 显示 的 是 a-8 裁减 方案 的 一 半 ( 减 去 类 型 说 明 ) 内 
容 ; 另 一 半 代 码 的 编写 应 该 不 会 遇 到 任何 麻烦 。 

为 了 充分 利用 -8 裁减 , 对 弈 程序 通常 尽量 对 非 终 端 节 点 应 用 求 值 函数 , 力图 把 最 好 的 棋 步 
时 一些 放 到 搜索 范围 内 。 这 样 的 结果 甚至 比 人 们 从 随机 顺序 的 节点 所 期 望 的 结果 还 要 裁减 得 多 。 
其 他 一 些 方法 , 像 在 一 些 更 活 既 的 行 棋 沿 线 进 行 更 深入 的 搜索 也 在 使 用 。 


ps 

* Same as before, but perform alpha-beta pruning. 
* The main routine should make the cal! with 

* alpha = COMP LOSS and beta = COMP WIN. 

yi 
public MoveInfo findCompMove( int alpha, int beta ) 
{ 


Com tn 上 局 一 


int i, responseValue; 
int value, bestMove = 1; 
MoveInfo quickWinInfo; 


if( fullBoard( ) ) 
value = DRAW; 


else 

if( ( quickWinInfo = immediateCompMin( ) ) != null ) 
return quickWinInfo; 

else 
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value = alpha; 
for{ i = 1; i <= 9 && value < beta; i++ ) // Try each square 
{ 

if( isEmpty( i ) ) 

{ 


place( i, COMP ); 
responseValue = findHumanMove( value, beta ).value; 
unplace( i ); // Restore board 


if( responseValue » value ) 
{ 
// Update best move 
value = responseValue; 
bestMove = i; 


return new MoveInfo( bestMove, value ); 


} 





10-73 (£&) 


在 实践 中 ，a-8 裁减 把 搜索 限制 在 只 有 O(V N) 个 节点 上 , 这 里 N 是 整个 博弈 树 的 大 小 。 这 
是 巨大 的 节约 , 它 意味 着 使 用 -8 裁减 的 搜索 与 非 裁减 树 相 比 能 够 进行 到 两 倍 的 深度 。 我 们 的 三 
连 游戏 棋 例子 是 不 理想 的 , 因为 存在 太 多 相同 的 值 , 但 即使 是 这 样 , 最 初 对 97 162 个 节点 的 搜索 
还 是 被 减 到 了 4 493 个 节点 (这 些 计数 包括 非 终端 节点 )。 

在 许多 对 弈 领域 , 计算 机 跻身 于 世界 最 优秀 模 手 之 列 。 所 使 用 的 方法 是 非常 有 趣 的 , 而 且 可 
以 应 用 到 一 些 更 严肃 的 问题 上 。 更 多 的 细节 可 见 参 考 文献 。 


小 结 


这 


一 章 曾 述 了 在 算法 设计 中 发 现 的 五 个 最 普通 的 方法 。 当 面临 一 个 问题 的 时 候 , 花 些 时 间 


考察 一 下 这 些 方法 能 否 适用 是 值得 的 。 算 法 的 适当 选择 , 结合 数据 结构 的 审慎 使 用 , 常常 能 够 迅 
速 导致 问题 的 高 效 解决 。 


练习 


10.1 
10.2 


证 明 将 多 处 理 器 作业 调度 工作 的 平均 完成 时 间 最 小 化 的 贪 禁 算法 是 正确 的 。 
设 输入 为 作业 7 ,j2,… ,jn， 其 中 的 每 一 个 作业 都 要 花 一 个 时 间 单 位 来 完成 。 如 果 每 个 
作业 j; 在 时 间 限 度 t; 内 完成 , 那么 将 挣 得 d; 美元 , 但 若 在 时 间 限 度 以 后 完成 则 挣 不 
到 钱 。 
a. 给 出 一 个 O(N?) 贪 禁 算 法 求解 该 问题 。 
““b. 修改 你 的 算法 以 得 到 O(Nlog NN) 的 时 间 界 。 提 示 : 时 间 界 完全 归 因 于 将 作业 按照 金 
额 排序 。 算 法 的 其 余部 分 可 以 使 用 不 相交 集 数据 结构 以 O(Nlog N) EH. 
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10.3 


10.25 


10.26 
10.27 


* 


——— 


一 个 文件 以 下 列 频率 包含 冒号 、 空 格 、 换 行 (newline)、 逗号 和 数字 : H S (100), 空格 
(605), 换行 (100), 逗号 (705), 0(431), 1(242), 2(176), 3(59), 4(185), 5(250), 


6(174), 7(199), 8(205), 9(217)。 构 造 其 哈 夫 曼 编 码 。 


编码 文件 有 一 部 分 必须 是 指示 哈 夫 曼 编码 的 文件 头 。 给 出 一 种 方法 构建 大 小 最 多 为 0 
(N) 的 文件 头 ( 除 符号 外 ), 其 中 N 是 符号 的 个 数 。 

完成 哈 夫 曼 算 法 生成 最 优 前 缘 码 的 证 明 。 

证 明 , 如 果 符 号 是 按照 频率 排序 的 , 那么 哈 夫 曼 算法 可 以 以 线性 时 间 实 现 。 

用 哈 夫 曼 算法 写 出 一 个 程序 实现 文件 压缩 (和 解压 缩 )。 


证 明 , 通过 考虑 下 述 项 的 序列 可 以 迫使 任意 联机 装 箱 算法 至 少 使 用 六 最 优 箱子 数 : N 


项 大 小 为 二 一 2e，N SOUS +e, N 项 大 小 为 了 + eo 

解释 如 何以 时 间 O( Nlog N) 实 现 首 次 适合 算法 和 最 佳 适合 算法 。 
指出 在 10.1.3 节 讨 论 的 所 有 装 箱 方法 对 输入 0.42,0.25,0.27,0.07,0.72,0.86,0.09， 
0.44,0.50,0.68,0.73,0.31,0.78,0.17,0.79,0.37,0.73,0.23,0.30 的 操作 。 
编写 一 个 程序 比较 各 种 装 箱 试 探 方法 (在 时 间 上 和 所 用 箱子 的 数量 上 ) 的 性 能 。 
证 明定 理 10.7。 
证 明定 理 10.8。 
将 N 个 点 放 入 一 个 单位 方 格 中 。 证 明 最 近 一 对 点 之 间 的 距离 为 O(N 2)。 
论证 对 于 最 近 点 算法 , 在 带 内 的 平均 点 数 是 OWN) E7: 利用 前 一 道 练习 的 
结果 。 
编写 一 个 程序 实现 最 近 点 对 算法 。 
使 用 三 数 中 值 取 中 分 割 方法 , 快速 选择 算法 的 渐 近 运行 时 间 是 多 少 ? 
证 明 七 数 中 值 取 中 分 割 法 的 快速 选择 算法 是 线性 的 。 为 什么 七 数 中 值 取 中 分 割 法 不 用 
在 证 明 中 ? 
实现 第 7 章 中 的 快速 选择 算法 , 快速 选择 使 用 五 数 中 值 取 中 分 割 法 ,并 实现 10.2.3 节 
末尾 的 抽样 算法 。 比 较 它们 的 运行 时 间 。 
许多 用 于 计算 五 数 中 值 取 中 分 割 法 的 信息 都 被 扔 掉 了 。 指 出 通过 更 仔细 地 使 用 这 些 信 
息 怎 样 能 够 减少 比较 的 次 数 。 
完成 在 10.2.3 节 末 尾 描述 的 抽样 算法 的 分 析 , 并 解释 OAs 的 值 如 何 选择 。 
指出 如 何 用 递归 乘 算 法 计算 XY, 其 中 X=1234，Y=4321。 要 包括 所 有 的 递归 计算 。 
指出 如 何 只 使 用 三 次 乘法 将 两 个 复数 X=a+ bi 和 Y=c+ di AR. 
a. 证 明 

XiLYR+XRY = (Xi + Xr)( YL + YR)— XrYL— XrYR 
b. 它 给 出 进行 N 比特 数 的 乘法 的 O(N'”) 算 法 。 将 该 方法 与 课文 中 的 解法 进行 
比较 。 

“a. 指出 如 何 通 过 求解 大 约 为 原 问题 三 分 之 一 大 小 的 五 个 问题 来 完成 两 个 数 的 乘法 。 

* b. 将 该 问题 推广 得 出 一 个 O(N!'*) 的 算法 , HP e>0 为 任意 常数 。 
c. 在 b 问 题 中 的 算法 比 O(Nlog N) 好 吗 ? 
为 什么 Strassen 算法 在 2x2 矩阵 的 乘法 中 不 使 用 可 交换 性 是 重要 的 ? 

两 个 70x 70 矩阵 可 以 使 用 143 640 次 乘法 相 乘 。 指 出 这 如 何 能 够 用 于 改进 由 Strassen 
算法 给 出 的 界 。 
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计算 4,4;43444.4545 的 最 优 方法 是 什么 ?其 中 , 这 些 矩 阵 的 阶 数 为 A: 10X20, 
A»: 20X1, Az: 1X40, Ag: 40X5, As: 5X30, Ag: 30x 15, 
证 明 下 列 贪 楚 算 法 均 不 能 进行 链 式 矩阵 乘法 。 在 每 一 步 
a. 计算 最 划算 的 乘法 。 
b. 计算 最 昂贵 的 乘法 。 
c. 计算 两 个 矩阵 M; 和 Mi 之 间 的 乘法 使 得 在 M, 中 的 列 数 最 小 (使 用 上 面 法 
则 之 一 )。 
编写 一 个 程序 计算 矩阵 乘法 的 最 佳 顺序 。 注 意 , 要 包括 显示 具体 顺序 的 例 程 。 
指出 下 列 单 词 的 最 优 二 叉 查 找 树 ， 其 中 括号 内 是 单词 出 现 的 频率 : a(0.18)，and 
(0.19), 1(0.23), it(0.21), or(0.19). 
将 最 优 二 叉 查 找 树 算法 扩展 到 可 以 对 不 成 功 的 搜索 进行 。 在 这 种 情况 下 ，9i 是 对 任意 
满足 rw< W € w;,1 的 单词 W 执行 一 次 查找 的 概率 ， 其 中 ISIN, qo 是 对 W< wl 
的 单词 W 执行 一 次 查找 的 概率 , 而 gw 是 对 W> wn 执行 一 次 查找 的 概率 。 注 意 ， 
十 2 -ogg = a 
i C; ;=0, 此 外 
Ci. 一 Wij + min ( Ci, -1* C,,;) 
设 W 满足 四 边 形 不 等 式 (quadrangle inequality), BUR MAA) i <i’ Sjj’, 
Wit We SW, + Wij 
进一步 假设 W 是 单调 的 : 如 果 ei Rjzmj , BA — Wy jio 
a. 证 明 C 满足 四 边 形 不 等 式 。 
b. 令 R,,; 是 使 达到 最 小 值 Ce-i + Ci,; 的 最 大 的 &( 即 在 相同 的 情形 下 选择 最 大 的 &)。 
证 明 
R; SRi jr 人 Ri+i,j+! 
c. HEAR R 沿 着 每 一 行 和 列 是 非 减 的 。 
d. 用 它 证 明 C 中 所 有 的 项 可 以 以 O(N?) 时 间 计 算 。 
e. 使 用 这 些 技巧 以 O(N?) 时 间 可 以 解决 哪个 动态 规划 算法 ? 
编写 一 个 例 程 从 10.3.4 节 中 的 算法 重新 构造 那些 最 短路 径 。 
二 项 式 系 数 C(N ,上 &) 可 以 递归 定义 如 下 : C(N,0)=1, C(N,N)=1, 且 对 于 0<k< 
N, C(N,&)=C(N-1,k)+C(N-1,k-1). HB— aad 项 式 
系数 的 运行 时 间 的 分 析 : 
a. 递归 计算 。 
b. 使 用 动态 规划 算法 。 
编写 在 跳跃 表 中 分 别 执行 插入、 删除 以 及 查找 的 例 程 。 
给 出 跳 嫉 表 操 作 的 期 望 时 间 为 O(log NN) 的 正式 证 明 。 
10-74 显示 抛 一 枚 硬币 的 例 程 , 假设 random 返回 一 个 整数 (这 在 许多 系统 中 常见 )。 
如 果 随 机 数 发 生 器 使 用 形 如 M = 22 的 模 (遗憾 的 是 这 在 许多 系统 上 流行 ), 那么 那些 
跳 妈 表 算法 的 期 望 性 能 如 何 ? 
a. 用 到 寡 算法 证 明 279 —1 (mod 341), 
b. 指出 随机 化 素性 测试 当 N= 561 时 对 于 A 的 多 种 选择 是 如 何 工作 的 。 
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CoinSide flip( ) 
( 


if( ( random( ) $2 ) == 0) 
return HEADS; 


lse 
return TAILS; 





10-74 有 问题 的 抛 币 器 (程序 ) 


实现 收费 公路 重建 算法 。 

如 果 两 个 点 集 产生 相同 的 距离 集合 而 不 彼此 转换 ， 那么 这 两 个 点 集 称 为 是 同 度 的 
(homometric)。 下 列 距 离 集 合 给 出 两 个 不 同 的 点 集 : 11,2,3,4,5,6,7,8,9,10,11,12, 
13,16,17}。 求 出 这 两 个 点 集 。 

扩展 重建 算法 使 给 定 一 个 距离 集合 找 出 所 有 的 同 度 点 集 。 

指出 图 10-75 中 树 的 a-p 裁减 的 结果 。 


(65 68 86 38 63 ($0 G7 $3 Min 


935 6569 G9 68 6969 6569 62 6» 6963 63 49 65 6560 09 6009 49.9 (30) 6065 6509 (63 


图 10-75 ”博弈 树 ， 该 树 可 以 裁减 


a. 图 10-73 中 的 程序 实现 a 裁减 还 是 8 裁减 ? 

b. 实现 与 其 互补 的 例 程 。 

写 出 三 连 游戏 棋 其 余 的 过 程 。 

一 维 装 圆 问 题 (one-dimensional circle packing problem) 如 下 : 有 N 个 半径 分 别 是 rira, 
ry 的 圆 。 将 这 些 圆 装 到 一 个 盒子 中 使 得 每 个 圆 ”一 
MSS HRA, 圆 的 排列 按 原 来 的 顺序 。 该 

问题 是 找 出 最 小 尺寸 的 盒子 的 宽度 。 图 10-76 显示 | 
一 个 例子 , 圆 的 半径 分 别 为 2、1、2。 最 小 尺寸 盒子 
的 宽度 为 4+4Y2。 = 

设 无 向 图 G 的 边 满足 三 角形 不 等 式 : o. eu— Æ 10-76 装 圆 问题 样 例 

Cy wo 指出 如 何 计算 值 最 多 为 最 优 路 径 两 倍 的 旅行 

售货员 环 游 。 提 示 : 构造 最 小 生成 树 。 

假设 你 是 邀请 赛 的 经 理 , 需要 安排 N = 2* 个 运动 员 之 间 一 轮 罗 宾 邀 请 赛 (robin 
tournament)。 在 这 次 邀请 赛 上 , 每 人 每 天 恰好 打 一 场 比 赛 ; 六 -1 天 后 , 每 对 选手 间 
均 已 进行 了 比赛 。 给 出 一 个 递归 算法 安排 比赛 。 

a. 证 明 在 一 轮 罗 宾 邀 请 赛 中 总 能 够 以 顺序 p; «b; ,…, bi 安排 运动 员 使 得 对 所 有 1] 
<N, P RIRI p MER. 
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b. 给 出 一 个 O(Nlog N) 算 法 来 找 出 一 种 这 样 的 安排 。 你 的 算法 可 以 作为 上 一 问 (a) 的 
证 明 。 

给 定 平 面 上 N 个 点 的 集合 P= pi, ps，,… ,Pro 一 个 Voronoi 图 是 将 平面 分 成 N 个 区 域 
R: 的 一 个 划分 , 使 得 R 中 所 有 的 点 比 已 中 任何 其 他 的 点 都 更 接近 p;。 图 10-77 显示 7 
个 (细心 安排 的 ) 点 的 Voronoi 图 。 给 出 一 个 OC Nlog N) 算 法 构造 Voronoi 图 。 





10-77 Voronoi 图 


E & 11 (convex polygon) 是 具有 如 下 性 质 的 多 边 形 : 端点 位 于 多 边 形 上 的 任意 线段 

全 部 落 在 该 多 边 形 中 。 凸 包 (convex hull) 问 题 是 找 出 一 

个 将 平面 上 的 点 集 围 住 的 (面积 ) 最 小 的 凸 多 边 形 。 

10-78 显示 40 个 点 的 点 集 的 凸 包 。 给 出 找 出 凸 包 的 一 个 

O( Nlog N) BE. 

考虑 正确 调整 一 个 段落 的 问题 。 段 落 由 一 系列 长 度 分 别 

为 a1,a2, 7, ay 的 单词 wl , wo on ,wn 组 成 , 我 们 希望 把 

它 破 成 长 度 为 工 的 一 些 行 。 单 词 间 由 空白 分 隔 , 空白 的 

理想 长 度 是 5( 毫 米 ), 但 是 空白 在 必要 的 时 候 可 以 伸 长 或 

收缩 (不 过 必须 大 于 0), 使 得 一 行 ww;;1…w 的 长 度 恰 图 10-78 ”一 个 西 包 的 例子 

好 是 L. AM, 对 于 每 一 个 空白 6 我 们 要 装填 |5 一 5 个 

丑 点 (ugliness points)。 不 过 , 最 后 一 行 是 例外 , 我 们 只 在 b « b 的 时 候 装 填 ( 换 句 话 说 ， 

装填 只 在 收缩 的 时 候 进行 ), 因为 最 后 一 行 不 需要 调整 。 这 样 ,如果 5; 是 在 a; 和 ai; 之 

间 的 空白 的 长 度 , 那么 任何 一 行 (最 后 一 行 除外 ) ww wj(j 之 i) 的 丑 点 设置 为 

Dila- bl 2G-DIb -6b|, 其 中 避 ' 是 该 行 上 空白 的 平均 大 小 。 这 只 在 5<5 时 

对 最 后 一 行 适用 , 否则 ,最 后 一 行 根本 不 必 装 填 丑 点 。 

a. 给 出 一 个 动态 规划 算法 来 找 出 将 wwe, wey 排 成 长 度 为 工 的 一 些 行 的 最 少 的 丑 点 
设置 。 提 示 : 对 于 i= N,N 一 1,…,1, 计算 ww, wy 的 最 好 的 排版 方式 。 

b. 给 出 你 的 算法 的 时 间 和 空间 复杂 度 (作为 单词 个 数 N 的 函数 )。 

c. 考虑 我 们 使 用 固定 宽度 字体 的 特殊 情况 , 假设 o 的 最 优 值 为 1( 空 格 )。 在 这 种 情况 
F, 不 允许 空白 收缩 , 因为 下 一 个 最 小 的 空白 空间 就 是 0。 给 出 一 个 线性 时 间 算 法 
生成 在 这 种 情形 的 最 少 的 丑 点 设置 。 
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最 长 递增 子 序列 (longest increasing subsequence) [B] BAM F: 给 定数 ajaz, an, RHA 
使 得 a; € a, «-" Xa; Hi Ki; «c i, 的 最 大 的 值 。 作 为 一 个 例子 , 如 果 输 入 为 3， 
1,4,1,5,9,2,6,5, 那么 最 大 递增 子 列 的 长 度 为 4( 该 子 列 为 1,4,5,9)。 给 出 一 个 
O(N’) 算 法 求解 最 长 递增 子 序 列 问 题 。 
最 长 公共 子 序 列 (longest common subsequence) [A] BAF : 给 定 两 个 序列 A = a ,as,… ,am 
AM B=b,,6..°,by, RA 和 B 二 者 共有 的 最 长 子 序 列 C= cl,cs,… ,cs WIRE ka W 
如 , 若 
A —d,y,n,a,m,i,c 

和 

B-7p;,r,o,g,r,a,m,m,;i,n,g, 
则 最 长 公共 子 序列 为 am,i 其 长 度 为 3。 给 出 一 个 算法 求解 最 长 公共 子 序列 问题 。 你 
的 算法 应 该 以 O(MN ) 时 间 运 行 。 
字 型 匹配 问题 (pattern matching problem) 如 下 :; 给 定 一 个 文本 串 S 和 一 种 字 型 P, RH 
PP 在 S 中 的 首次 出 现 。 近 似 宇 型 匹配 (approximate pattern matching) 人 允许 三 种 类 型 的 
次 误 匹 配 。 
1. 字符 在 S 中 但 不 在 已 中 。 
2. 字符 在 P 中 但 不 在 S 中 。 
3.P AS 可 以 在 一 个 位 置 上 不 同 。 
例如 , 47658 “data structures txtborpk "中 搜索 “trextbook" 人 允许 最 多 三 次 误 匹 配 , WHAT 
找到 一 个 匹配 (插入 一 个 e, 将 一 个 r 改变 成 o。, 删除 一 个 p)。 给 出 一 个 O(MN) 算 法 
求解 近似 串 匹配 问题 , 其 中 M=|1Pl 以 及 N=|S|。 
背包 问题 (knapsack problem) 的 一 种 形式 如 下 : 给 定 一 个 整数 集合 A = al,a,,…,an 以 
及 整数 K。 存 在 A 的 一 个 其 和 恰好 为 K FRG? 
a. 给 出 一 个 算法 以 时 间 O(NK ) 求 解 背包 问题 。 
b. 为 什么 它 并 不 证 明 P= NP? 
给 你 一 个 货币 系统 , 它 的 硬币 值 cl ,c,,… ,cw 美 分 以 递减 顺序 排列 。 
a. 给 出 一 个 算法 计算 找 K 美 分 零钱 所 需 最 小 的 硬币 数 。 
b. 给 出 一 个 算法 计算 找 K 美 分 零钱 的 不 同 的 方法 数 。 
考虑 将 8 个 皇后 放 到 一 张 (8 行 8 列 的 ) 棋 盘 上 的 问题 。 两 皇后 被 说 成 是 互相 对 攻 的 ， 
如 果 她 们 处 在 同一 行 , 或 同一 列 , 或 同一 条 (不 必 是 主 ) 对 角 线 上 。 
a. 给 出 一 个 随机 化 算法 将 8 个 非 对 攻 的 皇后 放 到 一 张 棋 盘 上 。 
b. 给 出 一 个 回 湖 算法 解决 同一 个 问题 。 
c. 实现 这 两 个 算法 并 比较 它们 的 运行 时 间 。 
在 国际 象棋 中 , 在 尺 行 C 列 上 的 国王 可 以 走 到 1: RS B £T 8I 1: C' SB 列 处 (其 中 
B 是 棋盘 的 大 小 ), 假设 或 者 

IR- R'|=2 ŘIC-C'|=1 
或 者 

IR-R'|-1XIC-C|-72 
马 的 一 次 环 游 是 马 在 棋盘 上 的 一 系列 跳 行 , 它 恰 好 访问 所 有 的 方 格 一 次 并 且 最 后 又 回 
到 开始 的 位 置 。 
a. 如 果 B 是 奇数 , 证 明 马 的 环 游 不 存在 。 
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b. 给 出 一 个 回溯 算法 找 出 马 的 一 次 环 游 。 
10.60 ”考虑 图 10-79 中 的 递归 算法 ,该 算法 在 一 个 无 图 图 中 寻找 从 s 到 上 的 最 短 赋 权 路 径 。 
a. 这 个 算法 对 于 一 般 的 图 为 什么 行 不 通 ? 
b. 证 明 该 算法 对 无 圈 图 可 以 运行 到 终止。 
c. 该 算法 的 最 坏 情形 运行 时 间 是 多 少 ? 


Distance shortest( s,t) 


{ 


Distance d,, tmp; 


if( s == t) 

return 0; 
d, = oo 
for each Vertex v adjacent to s 
( 

tmp = shortest(v,t ); 

if( Csy + tmp < di) 

d, = Csy + tmp; 

} 


return d,; 





10-79 递归 的 最 短路 径 算 法 伪 码 


10.61 令 A 为 元 素 是 0 和 1 的 N 行 N IER., A 的 子 和 矩阵 S 由 形成 方 阵 的 任意 一 组 相 邻 项 
组 成 。 
a. 设计 一 种 O(N?) 算 法 , 该 法 确定 A 中 1 的 最 大 子 矩阵 的 阶 数 。 例 如 ， 在 下 列 矩 阵 
H, 这 种 最 大 的 子 矩 阵 是 4 行 4 列 的 方 阵 。 
10 111 000 
00 010 100 
00 111 000 
00 111 010 
00 111 111 
01 011 110 
01 011 110 
00 011 110 
* *b. MR S 不 仅 可 以 是 方形 而 且 还 可 以 是 矩形 , 重复 a 题 的 设计 。 最 大 的 含义 是 由 面 
积 来 度量 的 。 
10.62 “即使 计算 机 有 一 步 就 能 够 立即 赢 棋 的 棋 步 , 若 它 检测 到 另外 一 步 也 保证 赢 棋 的 棋 ， 则 
它 可 能 不 走 立 即 赢 棋 的 棋 步 。 一 些 早期 的 国际 象棋 程序 在 这 一 点 上 是 有 问题 的 ， 当 检 
测 到 被 迫 的 赢 着 时 ,它们 陷 人 重复 位 置 上 的 循环 , 因此 使 得 对 方 宣 布 和 棋 。 在 三 连 游 
戏 棋 中 没有 这 个 问题 ,因为 程序 最 终 将 赢 棋 。 修 改 三 连 游戏 棋 算法 , 使 得 当 找到 赢 棋 
位 置 时 ,导致 最 快 赢 棋 的 棋 步 总 是 被 采纳 。 做 法 是 : 通过 把 9-depth 加 到 COMP _ WIN 使 
得 最 快 的 赢 模 给 出 最 高 的 值 。 
10.63 ”编写 一 个 程序 对 弈 5 行 5 列 的 五 连 游戏 棋 , 其 中 4 个 在 一 行 则 赢 棋 。 你 能 搜索 到 终端 节点 吗 ? 
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10.64 Boggle 游戏 由 字母 的 网 格 和 一 个 单词 表 组 成 。 游 戏 的 目标 是 找 出 网 格 中 的 一 些 单词 ， 
它们 满足 约束 : 两 个 相 邻 的 字母 必须 在 网 格 中 也 相 邻 , 并 且 网 格 中 的 每 一 项 在 每 个 单 
词 中 最 多 使 用 一 次 。 编 写 进行 Boggle 游戏 的 程序 。 

10.65 ”编写 进行 MAXIT 游戏 的 程序 。 棋 盘 是 N FTN 列 的 网 格 , 游戏 开始 时 这 些 网 格 随 机 放 
入 整数 。 指 定 一 个 位 置 为 当前 的 初始 位 置 。 游 戏 双 方 交替 行 棋 。 每 轮 行 棋 的 一 方 必 须 
在 当前 的 行 或 列 上 选取 一 个 网 格 元 素 , 所 选 位 置 的 值 则 被 加 到 游戏 者 的 得 分 中 , 并 且 
这 个 位 置 就 变 成 了 当前 位 置 不 能 再 选用 。 游 戏 双方 轮流 下 棋 直 到 当前 行 和 列 上 的 网 格 
元 素 都 被 选 过 , 此 时 游戏 终止 , 得 到 高 分 的 游戏 者 获胜 。 

10.66 ”奥赛 罗 棋 (五 子 棋 ) 在 6 行 6 列 的 棋盘 上 进行 , 而 且 总 是 黑 方 赢 棋 。 编 写 一 个 程序 证 明 
之 。 如 果 双 方 都 弈 至 最 优 , 那么 最 后 的 得 分 是 多 少 ? 
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论文 出 自 计 算 机 游戏 (大 部 分 是 国际 象棋 ) 专 刊 ; 这 个 专刊 是 思想 的 金 矿 。 其 中 有 一 篇 论文 描述 
当 棋盘 上 只 有 少数 棋子 的 时 候 使 用 动态 规划 彻底 解决 残局 的 下 棋 方法 。 相 关 的 研究 已 经 导致 在 
某 些 情 况 下 50 步 规则 的 改变 。 

练习 10.41 在 [9] 中 解决 。 确 定 没 有 重复 距离 的 同 度 (homometric) 点 集 对 于 N 26 是 否 存在 是 一 个 


尚未 解决 的 问题 。Christofides[13] 给 出 了 练习 10.47 的 一 种 解法 ,此 外 还 给 出 一 个 最 多 以 之 们 最 优 时 


间 生 成 一 个 环 游 的 算法 。 练 习 10.52 在 [30] 中 讨论 。 练 习 10.55 在 [58] 中 解决 。 在 [33] 中 给 出 一 个 O 
(&N) 算 法 。 练 习 10.57 在 [12] 中 讨论 , 但 不 要 被 这 篇 论文 的 标题 所 误导 。 
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在 这 一 章 , 我 们 将 对 在 第 4 章 和 第 6 章 出 现 的 几 种 高 级 数据 结构 的 运行 时 间 进 行 分 析 , 特别 
是 我 们 将 考虑 任意 顺序 的 M 次 操作 的 最 坏 情形 运行 时 间 。 这 与 较 一 般 的 分 析 有 所 不 同 , 后 者 是 
对 任意 单 次 的 操作 给 出 最 坏 情 形 的 时 间 界 。 

例如 , 我 们 已 经 看 到 AVL 树 以 每 次 操作 O(log N) 最 坏 情 形 时 间 支 持 标 准 的 树 操作 。AVL 
树 在 实现 上 多 少 有 些 复杂 , 这 不 仅 是 因为 存在 许多 的 情形 , 而 且 还 因为 高 度 平衡 信息 必须 保存 和 
正确 地 更 新 。 使 用 AVL 树 的 原因 在 于 ,对 非 平衡 查找 树 的 一 系列 B(N) 操 作 可 能 需要 O(N?) BT 
E, 这 样 一 来 花费 就 昂贵 了 。 对 于 查找 树 来 说 , 一 次 操作 的 O(N ) 最 坏 情 形 运 行 时 间 并 不 是 真正 
的 问题 , 主要 的 问题 是 这 种 情形 可 能 反复 发 生 。 伸 展 树 (splay tree) 提 供 一 种 可 喜 的 方法 , BALE 
意 操作 可 能 仍然 需要 B@(N) 时 间 , 但 是 这 种 退化 行为 不 可 能 反复 发 生 , 而 且 我 们 可 以 证 明 , 任意 
顺序 的 M 次 操作 (总 共 ) 花 费 OCM log N) 最 坏 情 形 时 间 。 因 此 , 在 长 时 间 运 行 中 这 种 数据 结构 
的 行为 就 像 是 每 次 操作 花费 O(log N) 时 间 。 我 们 把 它 称 为 摊 还 时 间 界 (amortized time bound). 

摊 还 界 比 对 应 的 最 坏 情 形 界 弱 ， 因 为 它 对 任意 单 次 操作 不 能 提供 保障 。 由 于 这 个 问题 通常 
并 不 重要 , 因此 如 果 能 够 对 一 系列 操作 保持 相同 的 界 同时 又 简化 数据 结构 , 那么 我 们 愿意 牺牲 单 
次 操作 的 界 。 摊 还 界 比 相 同 的 平均 情形 界 要 强 。 例 如, 二 叉 查 找 树 每 次 操作 的 平均 时 间 为 
O(log N), 但 是 对 于 连续 M 次 操作 仍 可 能 花费 O(MN ) 时 间 。 

因为 得 到 摊 还 界 需要 查看 整个 操作 序列 而 不 是 仅仅 一 次 操作 , 所 以 我 们 希望 我 们 的 分 析 更 
具 技 巧 性 。 我 们 将 看 到 这 种 期 望 一 般 会 实现 。 

本 章 我 们 将 

。 分 析 二 项 队列 操作 。 

。 分 析 斜 堆 。 

© 介绍 并 分 析 斐 波 那 契 堆 。 

。 分 析 伸 展 树 。 


11.1 一 个 无 关 的 智力 问题 


考虑 下 列 问 题 : 将 两 个 小 猫 放 在 足球 场 的 对 面 , 相距 100 码 。 它 们 以 每 分 钟 10 码 的 速度 相 
向 行走 。 同 时 , 这 两 个 小 猫 的 母亲 在 足球 场 的 一 端 , 她 可 以 以 每 分 钟 100 码 的 速度 跑步 。 猫 妈妈 
从 一 个 小 猫 跑 到 另 一 只 小 猫 , 来 回 轮流 跑 而 速度 不 减 , 一 直 跑 到 两 个 小 猫 ( 从 而 它们 的 猫 妈妈 也 ) 
在 中 场 相 遇 。 问 猫 妈 妈 跑 了 多 远 ? 

使 用 蛮 力 计算 不 难 解 决 这 个 问题 。 我 们 把 细节 留 给 读者 , 不 过 , 预计 这 个 计算 将 涉及 计算 无 
穷 几 何 级 数 的 和 。 虽 然 这 种 直接 计算 能 够 得 到 答案 , 但 是 实际 上 通过 引入 一 个 附加 变量 (即时 
间 ), 可 以 得 到 简单 得 多 的 解法 。 

因为 两 个 小 猫 相 100 码 远 而 且 以 每 分 钟 20 码 的 和 速度 互相 接近 , 所 以 他 们 花 5 分 钟 即 可 
到 达 中 场 。 由 于 猫 妈 妈 每 分 钟 跑 100 码 , 因此 她 跑 的 总 距离 是 500 码 。 

这 个 问题 前 述 了 一 个 思路 , 即 有 时 候 间接 求解 一 个 问题 要 比 直 接 求解 容易 。 我 们 将 要 进行 
的 摊 还 分 析 将 用 到 这 个 思路 。 我 们 将 引入 一 个 附加 变量 , 叫做 位 势 (potential), 它 使 我 们 能 够 证 
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明 若 不 引入 位 势 很 难 建立 的 一 些 结果 。 
11.2 二 项 队列 


我 们 将 要 考查 的 第 一 个 数据 结构 是 第 6 章 中 的 二 项 队列 , 现在 我 们 进行 简要 的 复习 。 可 知 ， 
二 项 树 (binomial tree) B, 是 一 棵 单 节点 树 , H £20, 二 项 树 B, 通过 将 两 棵 二 项 树 B | 合 并 到 一 
起 而 得 到 。 二 项 树 Bo 到 B, 如 图 11-1 所 示 。 


图 11-1 二 项 树 Bo, Bı, B2, B3 HI B4 


一 棵 二 项 树 的 节点 的 秩 (rank) 等 于 它 的 子 节点 的 个 数 ; 特别 地 ，B 的 根 节点 的 秩 为 &。 二 项 
队列 是 堆 序 的 二 项 树 的 集合 , 在 这 个 集合 中 对 于 任意 的 & 最 多 可 以 存在 一 棵 二 项 树 B,。 图 11-2 
显示 两 个 二 项 队列 H, 和 H,。 

最 重要 的 操作 是 merge( 合 并 )。 为 了 合并 两 个 二 项 队列 , 需要 执行 类 似 于 二 进 制 整数 加 法 的 
操作 : 在 任 一 阶段 ,可 以 有 零 、 一 、 二 或 三 棵 B, BE. 它 依赖 于 两 个 优先 队列 是 否 包 含 一 棵 B, 树 
以 及 是 否 有 一 棵 有 树 从 前 一 步 转 人 。 如 果 存 在 零 棵 或 一 棵 B, 树 , 那么 它 就 作为 一 棵 树 被 放 到 合 
并 后 的 二 项 队列 中 ; 如 果 有 两 棵 B, 树 , 那么 它们 被 合并 成 一 棵 Bi ,1 树 并 且 被 并 人 到 结果 中 ; 如 
果 有 三 棵 Bi 树 , 那么 将 一 棵 作为 树 放 人 到 二 项 队列 中 而 另 两 棵 则 合并 成 一 棵 且 被 并 和 人 到 结果 
rm. H, AH, 合并 的 结果 如 图 11-3 所 示 。 


H: 


© 
21) Q4) 
2 nO 
,€3 dà 
ý a, a 7e 
图 11-2 ”两 个 二 项 队列 Hl 和 H 图 11-3 二 项 队列 Hs: &3fF H, MH, 的 结果 


插入 操作 通过 创建 一 个 单 节点 二 项 队列 并 执行 一 次 merge 来 完成 。 做 这 项 工作 所 用 的 时 间 
为 M+1, 其 中 M 代表 不 在 该 二 项 队列 中 的 二 项 树 Bu 的 最 小 型 号 。 因 此 , 向 一 个 有 一 棵 Bo 树 
但 没有 B, 树 的 二 项 队列 进行 的 插 人 操作 需要 两 步 。 删 除 最 小 元 通过 把 最 小 元 除去 并 将 原 二 项 队 
列 分 裂 成 两 个 二 项 队列 然后 再 将 它们 合并 来 完成 。 第 6 章 给 出 了 对 这 些 操作 的 比较 详细 的 解释 。 

我 们 首先 考虑 一 个 非常 简单 的 问题 。 假 设 要 建立 一 个 含有 N 个 元 素 的 二 项 队列 。 我 们 知 
道 , 建立 一 个 含有 NN 个 元 素 的 二 叉 堆 可 以 以 O(N) 时 间 完 成 , 因此 我 们 希望 对 于 二 项 队列 也 有 一 
个 类 似 的 界 。 


Download at http:// www.pinb5i.com/ 


iE 341 


声明 : N 个 元 素 的 二 项 队列 可 以 通过 N 次 相继 播 人 而 以 时 间 O 〇 (N) 建 成 。 

这 个 声明 如 果 成 立 , 那么 它 就 给 出 一 个 极其 简单 的 算法 。 由 于 每 次 插入 的 最 坏 情形 时 间 是 
O(logN), 因此 , 这 个 声明 是 否 成 立 并 不 是 显然 的 。 前 面 讨论 过 , 如 果 将 该 算法 应 用 到 二 又 堆 ， 
则 运行 时 间 将 是 O( NlogN)。 

要 想 证 明 该 声明 , 可 以 直接 进行 计算 。 为 了 测 出 运行 时 间 , 我 们 将 每 次 插入 的 代价 定义 为 一 
个 时 间 单 位 加 上 每 一 步 链接 的 一 个 附加 单位 。 将 所 有 插 人 的 时 间 代价 求 和 就 得 到 总 的 运行 时 间 。 
这 个 总 的 时 间 为 N 个 单位 加 上 总 的 链接 步 数 。 第 一 、 第 三 、 第 五 以 及 所 有 编号 为 奇数 不 需要 链 
接 的 步骤, 因为 在 插入 时 Bo 不 出 现 。 因 此 , 有 一 半 的 插入 不 需要 链接 ,四 分 之 一 的 插入 只 需要 
一 次 链接 (第 二 、 第 六 、 第 十 次 插入 等 等 ), 八 分 之 一 的 插入 需 要 两 次 链接 ,等 等 。 我 们 可 以 把 所 
有 这 些 加 起 来 并 确定 用 N 作为 链接 步 数 的 界 ， 从 而 证 明 该 声明 。 不 过 ， 当 我 们 试图 分 析 一 系列 
不 仅仅 是 插入 操作 的 时 候 , 这 种 蛮 力 计算 将 无 助 于 其 后 的 进一步 分 析 , 因此 我 们 将 使 用 另外 一 种 
方法 来 证 明 这 个 结果 。 

考虑 一 次 插入 的 结果 。 如 果 在 插入 时 不 出 现 Bo 树 , 那么 使 用 与 上 面相 同 的 计数 方法 可 知 这 
次 插入 的 总 代价 是 一 个 时 间 单 位 。 现 在 , 插入 的 结果 有 了 一 棵 Bo BI, 这 样 , 我 们 已 经 把 一 棵 树 
添加 到 二 项 树 的 森林 中 。 如 果 存 在 一 棵 Bu 树 但 是 没有 B 树 , 那么 插入 花费 两 个 单元 的 时 间 。 
新 的 森林 将 有 一 棵 B, 树 但 不 再 有 Bo 树 , 因此 在 森林 中 树 的 数目 并 没有 变化 。 花 费 三 个 单元 时 
间 的 一 次 插入 将 创建 一 棵 B; 树 但 消除 一 棵 Bo B, 树 , 这 导致 在 森林 中 净 减 少 一 棵 树 。 事 实 
E, 容易 看 到 , 一 般 说 来 花费 c 个 单元 时 间 的 一 次 插入 导致 在 森林 中 净 增 加 2 一 c 棵 树 , 这 是 因 
为 创建 了 一 棵 B._ | 树 而 消除 了 所 有 的 B, 树 , O<i<c—-1, Al, 代价 昂贵 的 插入 操作 删除 一 些 
树 , 而 低廉 的 插入 却 创建 一 些 树 。 

令 C, 是 第 i 次 插入 的 代价 。 今 T; 为 第 i 次 插入 后 的 树 的 棵 数 。To =0 为 树 的 初始 棵 数 。 此 
时 我 们 得 到 不 变 式 

C, * (T;- T,.1) 22 (11.1) 
于 是 
C,*(T,- T)) =2 
C;*(T,- T,) =2 


Cy-1 + CTy-17 Ty-2) =2 
Cy + (Ty - Ty-1) =2 


把 这 些 方程 都 加 起 来 , 则 大 部 分 的 T, 项 被 消去 , 最 后 剩 下 


21 C; + Ty - To = 2N 
或 等 价 于 ， 


N 


$26 -2N-(T,- Te) 


考虑 到 To=0 以 及 N 次 插入 后 的 树 的 棵 数 Ty 确实 为 非 负 , 因此 (TAN - To) 非 负 。 于 是 
GLIN 
这 就 证 明了 我 们 的 声明 。 
在 buildBinomialQueue 例 程 运行 期 间 , 每 一 次 插 人 都 有 一 个 最 坏 情 形 运 行 时 间 O(log N), 
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但 是 由 于 整个 例 程 最 多 用 到 2N 个 单位 的 时 间 , 因此 这 些 插入 的 行为 就 像 是 每 次 使 用 不 多 于 两 个 
单位 的 时 间 。 

这 个 例子 阐明 了 我 们 将 要 使 用 的 一 般 技巧 。 数 据 结构 在 任 一 时 刻 的 状态 由 一 个 称 为 位 势 
(potential) 的 函数 给 出 。 这 个 位 势 函数 不 由 程序 存储 , 而 是 一 个 计数 装置 , 该 装置 将 帮助 分 析 。 
当 一 些 操 作 花 费 少 于 我 们 允许 它们 使 用 的 时 间 时 ,， 则 没有 用 到 的 时 间 就 以 一 个 更 高 位 势 的 形式 
“存储 "起 来 。 在 我 们 的 例子 中 , 数据 结构 的 位 势 就 是 树 的 棵 数 。 在 上 面 的 分 析 中 , 当 有 一 些 插 人 
只 用 到 一 个 单位 而 不 是 规定 的 两 个 单位 的 时 候 , 则 这 个 额外 的 单位 通过 增加 位 势 而 被 存储 起 来 
以 备 其 后 使 用 。 当 操作 出 现 超 出 规定 的 时 间 时 , 则 超出 的 时 间 通 过 位 势 的 减少 来 计算 。 可 以 把 
位 势 看 做 是 一 个 储蓄 账户 。 如 果 一 次 操作 使 用 了 少 于 指定 的 时 间 , 那么 这 个 差额 就 被 存储 起 来 
以 备 后 面 更 昂贵 的 操作 使 用 。 图 11-4 显示 由 buildBinomialQueue 对 一 系列 插 人 操作 所 使 用 的 累 
积 的 运行 时 间 。 可 以 看 到 , 运行 时 间 从 不 超过 2N 而 且 在 任 一 次 插入 后 二 项 队列 中 的 位 势 计 量 着 
存储 量 。 


2N 
总 时 间 


总 位 势 
0 4 8 12 16 20 24 28 32 36 40 44 


图 11-4 连续 N 次 insert 


—H r3 meme, 就 可 写 出 主要 的 方程 : 
Taau t APotential = Tsmertived (11.2) 
Ti{( 一 次 操作 的 实际 时 间 ), 代表 需要 执行 一 次 特定 操作 需要 的 精确 时 间 量 。 例 如 在 二 叉 查 找 树 
tH, 执行 一 次 contains(x) 的 实际 时 间 是 1 加 上 包含 x 的 节点 的 深度 。 如 果 将 整个 序列 的 基本 方程 
加 起 来 , 并 且 最 后 的 位 势 至 少 像 初始 位 势 一 样 大 , 那么 捧 还 时 间 就 是 在 操作 序列 执行 期 间 所 用 到 
的 实际 时 间 的 一 个 上 界 。 注 意 , 当 会 在 从 一 个 操作 到 另 一 操作 变化 时 ，T iso IER AE HJ c 
选择 一 个 位 势 函数 以 确保 一 个 有 意义 的 界 是 一 项 艰难 的 工作 ; 不 存在 一 种 实用 的 方法 。 一 
般 说 来 , 在 尝试 过 许多 位 势 函数 以 后 才能 够 找到 一 个 合适 的 函数 。 不 过 ,上 面 的 讨论 提出 一 些 法 
TW, 这 些 法 则 告诉 我 们 好 的 位 势 函 数 所 具有 的 一 些 性 质 。 位 势 水 数 应 该 : 
。 总 假设 它 的 最 小 值 位 于 操作 序列 的 开始 处 。 选 择 位 势 限 数 的 一 种 常用 方法 是 保证 位 势 函 
数 初始 值 为 0, 且 总 是 非 负 的 。 我 们 将 要 遇 到 的 所 有 例子 都 使 用 这 种 方法 。 
。 消去 实际 时 间 中 的 一 项 。 在 我 们 的 例子 中 , 如 果实 际 的 花费 是 c. 那么 位 势 改 变 为 2 一 c。 
当 把 这 些 加 起 来 就 得 到 摊 还 花费 是 2, 这 在 图 11-5 中 表 出 。 
现在 我 们 可 以 对 二 项 队列 操作 进行 完整 的 分 析 。 
定理 11.1 insert，deletMin， 以 及 merge 对 于 二 项 队列 的 摊 还 运行 时 间 分 别 是 O (1), 
O(log N) 和 O(log N)。 
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: insert 的 开销 


位 势 的 变化 


小 人 人 Lous 


-10 
0 4 8 12 16 20 24 28 32 36 40 44 48 


图 11-5 在 一 系列 操作 中 插 人 的 花费 和 每 一 次 操作 的 位 势 变化 
WRA: 
位 势 函 数 是 树 的 棵 数 。 初 始 的 位 势 函数 为 0, 且 位 势 总 是 非 负 的 ,因此 摊 还 时 间 是 实际 时 间 
的 一 个 上 界 。 对 insert 的 分 析 从 上 面 的 论证 可 以 得 到 。 对 于 merge, 假设 两 棵 树 分 别 有 Ni 和 
N 个 节点 以 及 对 应 的 T, 和 T; 棵 树 。 令 N=N +N, 执行 合并 的 实际 时 间 为 O(log( NN1)+ 
log(N;)) = O(log N), 在 合并 之 后 , 最 多 可 能 存在 log N 棵 树 ， 因 此 位 势 最 多 可 以 增加 O(log 
N)。 这 就 给 出 一 个 摊 还 的 界 O(log N)。deleteMin 操作 的 界 可 用 类 似 的 方法 得 到 。 E 


11.3 HE 


二 项 队列 的 分 析 可 以 算是 摊 还 分 析 一 个 容易 的 实例 。 现 在 我 们 来 考察 斜 堆 。 像 许多 的 例子 
一 样 , 一 旦 找到 正确 的 位 势 函 数 , 分 析 起 来 就 容易 了 。 困 难 的 部 分 在 于 选择 一 个 有 意义 的 位 势 
PRA 

对 于 斜 堆 , 我 们 知道 关键 的 操作 是 合并 。 为 了 合并 两 个 斜 堆 , 我 们 把 它们 的 右 路 径 合并 并 使 
之 成 为 新 的 左 路 径 。 对 于 新 路 径 上 的 每 一 个 节点 ， 除 去 最 后 一 个 外 , 老 的 左 子 树 作为 右 子 树 而 附 
于 其 上 。 在 新 的 左 路 径 上 的 最 后 节点 已 知 没有 右 子 树 , 因此 给 它 一 棵 右 子 树 就 不 明智 了 。 我 们 
所 要 考虑 的 界 不 依赖 于 这 个 例外 ,而 如 果 例 程 是 递归 地 编写 的 , 那么 这 又 是 自然 要 发 生 的 情况 。 
图 11-6 显示 合并 两 个 斜 堆 后 的 结果 。 





图 11-6 合并 两 个 斜 堆 


设 有 两 个 斜 堆 H, HP 并 在 各 自 的 右 路 径 上 分 别 有 ri 和 x; 个 节点 。 此 时 , 执行 合并 的 实 
际 时 间 与 ~; + rz 成 正比 , 因此 我 们 将 省 去 大 O 记 法 而 对 右 路 径 上 的 每 一 个 节点 取 一 个 单位 的 时 
间 。 由 于 这 些 堆 没 有 固定 的 结构 ,因此 两 个 堆 的 所 有 节点 都 位 于 右 路 径 上 的 情况 是 可 能 发 生 的 ， 
而 这 将 给 出 合并 两 个 堆 的 最 坏 情形 的 界 ON) (练习 11.3 要 求 构造 一 个 例子 )。 我 们 将 证 明 合并 
两 个 斜 堆 的 摊 还 时 间 为 O(logN)。 

现在 需要 的 是 能 够 获得 斜 堆 操作 效果 的 某 种 类 型 的 位 势 函 数 。 我 们 知道 , 一 次 merge 的 效果 
是 处 在 右 路 径 上 的 每 一 个 节点 都 被 移 到 左 路 径 上 , 而 其 原 左 儿子 变 成 新 的 右 儿 子 。 一 种 想法 是 
把 每 一 个 节点 算 为 右 节点 或 左 节点 来 分 类 , 这 要 看 节点 是 否 是 右 儿 子 来 定 , 这 时 我 们 把 右 节点 的 
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个 数 作为 位 势 函 数 。 虽 然 位 势 初始 时 为 0 并 且 总 是 非 负 的 , 但 是 问题 在 于 这 种 位 势 在 一 次 合并 
后 并 不 减少 从 而 不 能 恰当 地 反映 在 数据 结构 中 的 储备 量 。 因 此 , 这 样 的 位 势 函 数 不 能 够 用 来 证 
明 所 要 求 的 界 。 

一 个 类 似 的 想法 是 把 节点 分 成 重 节点 或 轻 节 点 , 这 要 看 任 一 节点 的 右 子 树 上 的 节点 是 否 比 
左 子 树 上 的 节点 多 来 确定 。 ` 

定义 11.1 一 个 节点 户 如 果 其 右 子 树 的 后 裔 数 至 少 是 该 户 节 点 的 后 毅 总 数 的 一 半 ,， 则 称 节 
点 p 是 重 的 (heavy), 否则 称 之 为 轻 的 (light)。 注 意 , 一 个 节点 的 后 裔 个 数 包括 该 节点 本 身 。 

例如 , 图 11-7 表示 一 个 斜 堆 。 关 键 字 为 15,3,6,12 和 7 的 节点 是 重 节点 , 而 所 有 其 他 节点 都 
是 轻 节 点 。 

我 们 将 要 使 用 的 位 势 函 数 是 这 些 堆 ( 的 集 
合 ) 中 的 重 节点 的 个 数 。 看 起 来 这 可 能 是 一 种 
好 的 选择 ,因为 一 条 长 的 右 路 径 将 包含 非常 
多 的 重 节点 。 由 于 这 条 路 径 上 的 节点 将 要 交 
换 它们 的 子 节点 , 因此 这 些 节 点 将 被 转变 成 
合并 结果 中 的 轻 节点 。 

定理 11.2 ”合并 两 个 斜 堆 的 摊 还 时 间 为 
O(log N)。 图 11-7 ” 斜 堆 一 一 其 中 的 重 节点 是 3,6,7,12 和 L5 

证 阴 : 

4 H 和 H; 为 两 个 堆 , 分 别 具 有 Ni 和 Na 个 节点 。 设 Hi 的 右 路 径 有 4 个 轻 节点 和 | 个 
His, 共有 hth PAR. AH, H, 在 其 右 路 径 上 有 D, 个 轻 节点 和 A, CEHA, 共有 l+ 
hot TA. 

如 果 我 们 采用 约定 : 合并 两 个 斜 堆 的 花费 是 它们 右 路 径 上 节点 的 总 数 , 那么 执行 合并 的 实际 
时 间 就 是 i + hio t hoo RE, 其 重 / 轻 状态 能 够 改变 的 节点 只 是 那些 最 初 位 于 右 路 径 上 的 节 
点 (并 最 后 出 现在 左 路 径 上 ), 因为 再 没有 别 的 节点 的 子 树 被 交换 。 这 可 参见 图 11-8 中 的 例子 。 





L 
© L 





图 11-8 合并 后 重 / 轻 状态 的 变化 


如 果 一 个 重 节点 最 初 是 在 右 路 径 上 , 那么 在 合并 后 它 必然 成 为 一 个 轻 节 点 。 位 于 右 路 径 上 
的 其 余 节 点 是 轻 节点 , 它们 可 能 变 成 也 可 能 变 不 成 重 节点 , 但 是 由 于 我 们 要 证 明 一 个 上 界 , 因此 
必须 假设 最 坏 的 情况 , 即 它们 都 变 成 了 重 节点 并 使 得 位 势 增 加 。 此 时 , 重 节点 个 数 的 净 变 化 最 多 
为 i+ 4 一 hi 一 h2。 把 实际 时 间 和 位 势 的 变化 (方程 (11.2)) 加 起 来 则 得 到 一 个 摊 还 界 2(1, 05). 

现在 必须 证 明 1, + 2 = O(log N), AF 12 0 是 原 右 路 径 上 轻 节点 的 个 数 , 而 一 个 轻 节点 
的 右 子 树 小 于 以 该 轻 节点 为 根 的 树 的 大 小 的 一 半 , 由 此 直接 推出 右 路 径 上 轻 节点 的 个 数 最 多 为 
log Ni + log N2, 这 就 是 O(log N)。 

注意 到 初始 的 位 势 为 0 而 且 位 势 总 是 非 负 的 , 我 们 的 证 明 也 就 完成 了 。 验 证 这 一 点 很 重要 ， 
否则 摊 还 时 间 就 不 能 成 为 实际 时 间 的 界 而 且 也 就 没有 意义 了 。 H 
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由 于 insert 和 deleteMin 操作 基本 上 就 是 一 些 merge, 因此 它们 的 摊 还 界 也 是 O(log N). 
11.4 SEARS 


在 9.3.2 节 我 们 指出 如 何 使 用 优先 队列 来 改进 Dijkstra 最 短路 径 算法 粗略 的 运行 时 间 O(| V|?) 
重要 的 观察 结果 是 运行 时 间 被 | 下 | 次 decreaseKey 操作 和 | V| 次 insert 和 deleteMin 操作 所 控 
制 。 这 些 操作 发 生 在 大 小 最 多 为 |V | 的 集合 上 。 通 过 使 用 二 叉 堆 ， 所 有 这 些 操作 花费 
O(log 1V|) 时 间 , 因此 Dijkstra 算法 最 后 的 界 可 以 减 到 O(|E| log |V|)。 

为 了 降低 这 个 时 间 界 , 必须 改进 执行 decreaseKey 操作 所 需要 的 时 间 。 我 们 在 6.5 节 所 描述 
的 d- 堆 给 出 对 于 decreaseKey 操作 以 及 insert 操作 的 O(logy1V|) 时 间 界 , 但 对 deleteMin 的 界 
则 是 Old log dV|)。 通 过 选择 d 来 平衡 带 有 | V | 次 deleteMin {REH |E |W decreaseKey 操作 
的 开销 , 并 考虑 到 4 必须 总 是 至 少 为 2, 那么 我 们 看 到 d 的 一 个 好 的 选择 是 

d = max (2,LI E|/l VI.) 
它 把 Dijkstra 算法 的 时 间 界 改进 到 
OCIEI logo. iigiAvinl VD 

斐 波 那 契 堆 是 以 O(1) 摊 还 时 间 支 持 所 有 基本 的 堆 操 作 的 一 种 数据 结构 , 但 deleteMin 和 
delete 除外 , 它们 花费 O(log N) 的 摊 还 时 间 。 我 们 立即 得 出 , 在 Dijkstra 算法 中 的 那些 堆 操作 将 
总 共 需 要 O(|E1+ | Vilog| V|) 的 时 间 。 

3E iR BB $2 HE ( Fibonacci heap)9 通 过 添加 两 个 新 观念 推广 了 二 项 队列 ; 

decreaseKey 的 一 种 不 同 的 实现 方法 : 我 们 以 前 看 到 的 那 种 方法 是 把 元 素 朝向 根 节点 上 滤 。 
对 于 这 种 方法 似乎 没有 理由 期 望 DO(1) 的 捧 还 时 间 界 ,因此 需要 一 种 新 的 方法 。 

懒 情 合并 (lazy merging): 只 有 当 两 个 堆 需要 合并 时 才 进 行 合 并 。 这 类 似 于 懒惰 删除 。 对 于 
懒惰 合并 , merge 是 低廉 的 , 但 是 因为 懒惰 合并 并 不 实际 把 树 结合 在 一 起 , 所 以 deleteMin 操作 可 
能 会 遇 到 许多 的 树 ， 从 而 使 这 种 操作 的 代价 高 昂 。 任 何 一 次 deleteMin 都 可 能 花费 线性 时 间 , 但 
是 它 总 能 够 把 时 间 归 咎 到 前 面 的 一 些 merge 操作 中 去 。 特 别 地 , 一 次 昂贵 的 deleteMin 必须 在 其 
前 面 要 有 大 量 的 非常 低廉 的 merge 操作 , 这 样 它们 才能 够 储存 额外 的 位 势 。 

11.4.1 切除 左 式 堆 中 的 节点 

在 二 叉 堆 中 ,decreaseKey 操作 是 通过 降低 节点 的 值 然后 将 其 朝 着 根 上 滤 直 到 建成 堆 序 来 实 
现 的 。 在 最 坏 的 情形 下 , CER O(log N) 时 间 , 这 是 平衡 树 中 通 向 根 的 最 长 路 径 的 长 。 

如 果 代 表 优 先 队 列 的 树 不 具有 O(log N) 的 深度 , 那么 这 种 方法 不 适用 。 例 如 , 若 将 这 种 方 
法 用 于 左 式 堆 , 则 decreaseKey 操作 可 能 花费 O(N) ATA, 如 图 11-9 中 的 例子 所 示 。 





图 11-9 通过 上 上 滤 将 N -1 递减 到 0 花费 B(N) 时 间 


O 这 个 名 字 来 自 于 这 种 数据 结构 的 一 个 性 质 ,后面 将 在 本 节 证 明 它 。 
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我 们 看 到 ,对 于 左 式 堆 来 说 decreaseKey 操作 需要 其 他 的 方法 。 见 图 11-10 中 的 左 式 堆 的 例 
子 ,假设 我 们 想 要 将 值 为 9 的 关键 字 减 低 到 0。 若 对 该 堆 变 动 , 则 必 将 引起 堆 序 的 破坏 , 这 种 破坏 
在 图 11-11 中 用 虚线 标示 。 





图 11-10 样 例 左 式 堆 H 


我 们 不 想 把 LEIR, 正如 我 们 已 经 看 到 的 , 因为 存在 一 些 情形 使 得 这 样 做 代价 太 大 。 解 
决 的 办 法 是 把 堆 沿 着 虚线 切 开 , 如 此 得 到 两 棵 树 , 然后 再 把 这 两 棵 树 合并 成 一 棵 。 令 X 为 要 执 
行 decreaseKey 操作 的 节点 , 令 已 为 它 的 父 节点 。 在 切断 以 后 我 们 得 到 两 棵 树 , BRAY XAH, 
VAR T;, 它 是 原来 的 树 除去 H 后 得 到 的 树 。 具 体 情况 如 图 11-12 所 示 。 





0 2 
4 9 0 O 
a 5 QU 
(8j 6 18 
iS) 3 
H, 2l T, 
11-11. 将 9 降 到 0 引起 堆 序 的 破坏 图 11-12 切断 之 后 得 到 的 两 棵 树 


如 果 这 两 棵 树 都 是 左 式 堆 , 那么 它们 可 以 以 时 间 O(log NEH, 整个 操作 也 就 完成 了 。 容 
JEH, HK 是 左 式 堆 ,因为 没有 节点 的 后 窗 发 生变 化 。 由 于 它 的 所 有 节点 原本 就 满足 左 式 堆 的 
性 质 , 因此 现在 也 必然 满足 。 

然而 , 这 种 方案 似乎 还 是 行 不 通 , 因为 T; 未 必 是 左 式 堆 。 不 过 ,容易 恢复 左 式 堆 的 性 质 ， 
这 要 用 到 下 列 两 个 观察 到 的 结论 : 

”只 有 从 PP 到 T, 的 根 的 路 径 上 的 节点 可 能 破坏 左 式 堆 的 性 质 ; 它们 可 以 通过 交换 子 节点 

来 调整 。 
。 由 于 最 大 右 路 径 长 最 多 有 Liog(N + 1)j 个 节点 , 因此 我 们 只 需 检查 从 P 到 TT, 的 根 的 路 径 
上 的 前 Llog(N+1)j 个 节点 。 图 11-13 显示 H, 和 将 T, 转变 成 左 式 堆 后 的 Hro 

因为 我 们 能 够 以 O(log N) 步 将 T; 转变 成 左 式 堆 H, 然后 合并 H 和 Ho, 所 以 我 们 得 到 一 

个 在 左 式 堆 中 执行 decreaseKey 的 O(log N) 算 法 。 图 11-14 显示 的 堆 是 该 例 的 最 后 结果 。 





H, 


11-13. 将 T; 转变 成 左 式 堆 Ho 后 的 情形 图 11-14 通过 合并 H, 和 Hp 而 完成 
操作 decreaseKey( X ,9) 
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11.4.2 二 项 队列 的 懒惰 合并 

斐 波 那 契 堆 所 使 用 的 第 二 个 想法 是 懒 情 合并 。 我 们 将 把 这 个 想法 用 于 二 项 队列 并 证 明 执 行 
一 次 merge 操作 (还 有 插入 操作 , 它 是 一 种 特殊 情形 ) 的 摊 还 时 间 为 O(1)。 对 于 deleteMin, Hp 
还 时 间 仍 然 是 O(log N)。 

这 个 想法 如 下 : 为 了 合并 两 个 二 项 队列 ,只 要 把 两 个 二 项 树 的 表 连 在 一 起 , 结果 得 到 | -个 新 
的 二 项 队列 。 这 个 新 的 队列 可 能 含有 相同 大 小 的 多 棵 树 ， 因此 破坏 了 二 项 队列 的 性 质 。 为 了 保 
持 一 致 性 , 我 们 将 把 它 叫 做 懒 情 二 项 队列 (lazy binomial queue) o 这 是 一 种 快速 操作 , 该 操作 总 是 
花费 常数 (最 坏 情形 ) 时 间 。 和 前 面 一 样 ， 一 次 插入 通过 创建 一 个 单 节点 二 项 队列 并 将 其 合并 而 
完成 。 区 别 在 于 merge 是 懒惰 的 。 

deleteMin 操作 要 麻烦 得 多 , 因为 此 处 需要 我 们 最 终 把 懒惰 二 项 队列 转变 回 到 标准 的 二 项 队 
列 , 不 过 , 正如 我 们 将 要 证 明 的 , CAER O(log N) 的 排 还 时 间 一 一 但 不 像 以 前 是 O(log N) 
最 坏 情形 时 间 。 为 了 执行 deleteMin, 我 们 找 出 (并 最 终 返回 ) 最 小 元 素 。 如 前 所 述 ,， 我 们 将 它 从 
队列 中 删除 , 使 得 它 的 每 一 个 儿子 都 成 为 一 棵 新 的 树 。 此 时 通过 合并 两 棵 相等 大 小 的 树 直 至 不 
再 可 能 合并 为 止 而 把 所 有 的 树 合并 成 一 个 二 项 队列 。 

例如 , 图 11-15 表示 一 个 懒惰 二 项 队列 。 在 一 个 懒惰 二 项 队列 中 , 可 能 有 多 于 一 棵 的 树 有 相 
同 的 大 小 。 为 了 执行 deleteMin, 我 们 按 以 前 那样 把 最 小 的 元 素 删 除 ， 并 得 到 图 11-16 中 的 树 。 


(5) ©) [3) (4) (7) 
QU 20) 
图 11-15 ”懒惰 二 项 队列 
© © "d m 
(19 QU (8) (18) 
20) 
图 11-16 在 删除 最 小 元 素 (3) 后 的 懒惰 二 项 队列 


现在 我 们 必须 将 所 有 的 树 合并 而 得 到 一 个 标准 的 二 项 队列 。 一 个 标准 的 二 项 队列 每 个 秩 
(rank) 上 最 多 有 一 棵 树 。 为 了 有 效 地 进行 这 项 工作 , 我 们 必须 能 够 以 正比 于 出 现 的 树 的 棵 数 (T) 
的 时 间 ( 或 log N， 哪 个 大 用 哪个 ) 完 成 merge. Aik, 我 们 构造 表 的 一 个 数组 : Lo, Lits 
Letts 其 中 Row 是 最 大 的 树 的 秩 。 每 个 表 Lre 包含 秩 为 R 的 所 有 的 树 。 然后 应 用 图 11-17 中 的 
过 程 。 


for( R = 0; R <= [log NJ; Re* ) 
while( |La| >= 2 ) 
{ 


Remove two trees from Lp; 
Merge the two trees into a new tree; 
Add the new tree to LR+13 





) 
11-17. 恢复 二 项 队列 的 过 程 


每 通过 一 次 过 程 中 的 从 第 4 行 到 第 6 行 的 循环 , 树 的 总 棵 数 都 要 减 1。 这 意味 着 , 这 部 分 每 
次 执行 都 花费 常数 时 间 的 代码 只 能 够 执行 工 -1 次 , 其 中 工 是 树 的 棵 数 。 这 里 的 for 循环 计数 和 
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while 循 环 末 尾 的 检测 花费 O(log N) 时 间 , 这 使 得 运行 时 间 成 为 所 要 求 的 OCT + logN)。 
图 11-18 显示 该 算法 对 前 面 二 项 树 的 集合 的 执行 情况 。 





图 11-18 把 一 些 二 项 树 合并 成 一 个 二 项 队列 


懒 情 二 项 队列 的 摊 还 分 析 


为 了 进行 懒惰 二 项 队列 的 摊 还 分 析 , 我 们 将 用 到 与 标准 二 项 队列 所 使 用 的 相同 的 位 势 函 数 。 
因此 , 懒惰 二 项 队列 的 位 势 是 树 的 棵 数 。 

定理 11.3 merge 和 insert 的 摊 还 运行 时 间 对 于 懒惰 二 项 队列 均 为 O(1)。deleteMin AYRE 
还 运行 时 间 为 O(log N)。 

WEAR: 

这 里 的 位 势 函 数 为 二 项 队列 集合 中 树 的 棵 数 。 初 始 的 位 势 为 0, MAMA BRIAN. A 
Ho, 经 过 一 系列 的 操作 之 后 , 总 的 摊 还 时 间 是 总 的 运行 时 间 的 一 个 上 界 。 

对 于 merge 操作 , 实际 时 间 为 常数 , 而 二 项 队列 的 集合 中 的 树 的 棵 数 是 不 变 的 , A, AA 
程 (11.2) 可 知 摊 还 时 间 为 O(1)。 

对 于 insert 操作 , 其 实际 时 间 是 常数 , 而 树 的 棵 数 最 多 增加 1, 因此 摊 还 时 间 为 O(1)。 

操作 deleteMin 比较 复杂 。 令 R 为 包含 最 小 元 素 的 树 的 秩 , 而 令 人 是 树 的 棵 数 。 于 是 , 在 
deleteMin 操作 开始 时 的 位 势 为 下。 为 执行 一 次 deleteMin, 最 小 节点 的 各 子 节 点 被 分 离开 而 成 
为 一 棵 一 棵 的 树 。 这 就 产生 了 T^ R BUR, 这些 树 必 须要 合并 成 一 个 标准 的 二 项 队列 。 如 果 忽 
RK O 记 法 中 的 常数 , 那么 根据 上 面 的 论述 可 知 , 执行 该 操作 的 实际 时 间 为 T+ R+logN?, 5 
一 方面 , 一 旦 做 完 这 些 , 剩 下 的 最 多 可 能 还 有 logN 棵 树 ， 因 此 位 势 函 数 最 多 可 能 增加 (log N) - 
T。 把 实际 时 间 和 位 势 的 变化 相 如 得 到 摊 还 时 间 界 为 2logN + 只。 由 于 所 有 的 树 都 是 二 项 树 ， 因 
此 R<log N。 这 样 , 我 们 得 到 deleteMin 操作 的 摊 还 时 间 界 为 O(log N)。 w 
11.4.3 斐 波 那 契 堆 操作 


如 前 所 述 , 斐 波 那 契 堆 将 左 式 堆 decreaseKey 操作 与 懒惰 二 项 队列 merge 操作 结合 起 来 。 不 








O 我 们 能 够 这 么 做 ,是 因为 我 们 可 以 把 大 O 记号 所 蕴涵 的 常数 放 在 位 势 函 数 中 并 仍 可 消去 这 些 项 ,这 在 该 证 明 中 是 
需要 的 。 
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过 , 我 们 不 能 不 做 任何 修改 而 使 用 这 两 种 操作 。 问 题 在 于 , 如 果 在 这 些 二 项 树 中 进行 任意 切割 ， 
那么 结果 得 到 的 森林 将 不 再 是 二 项 树 的 集合 。 闪 此 , 每 一 棵 树 的 秩 最 多 为 | log N j 的 结论 将 不 再 
成 立 。 由 于 在 懒惰 二 项 队列 中 deleteMin 的 摊 还 时 间 界 已 被 证 明 是 2log N +R, 因此 ， 为 使 
deleteMin 的 界 成 立 需要 使 R= O(log N)。 
为 了 保证 R= O(log N), 我 们 对 所 有 的 非 根 节点 应 用 下 述 法 则 : 
。 将 第 一 次 (因为 切除 而 ) 失 去 一 个 儿子 的 ( 非 根 ) 节 点 作 上 标记 。 
。 如 果 被 标记 的 节点 又 失去 另外 一 个 儿子 节点 , 那么 将 它 从 其 父 节点 切除 。 这 个 节点 现在 
变 成 了 一 棵 分 离 的 树 的 根 并 且 不 再 被 标记 。 这 叫做 一 次 级 联 切 除 (cascading cut), 因为 在 
一 次 decreaseKey 操作 中 可 能 出 现 多 次 这 种 切除 。 
图 11-19 显示 在 decreasekey 操作 之 前 斐 波 那 契 堆 中 的 一 棵 树 。 当 关键 字 为 39 的 节点 变 成 
12 时 , 堆 序 被 破坏 。 因 此 , 该 节点 从 它 的 父 节 点 中 切除 , 变 成 了 一 棵 新 树 的 根 。 由 于 包含 33 的 
节点 被 标记 , 这 是 它 的 第 二 个 失去 的 子 节点 ,从 而 它 也 被 从 它 的 父 节 点 (10) 中 切除 。 现 在 , 10 也 
失去 了 它 的 第 二 个 儿子 , 于 是 它 又 从 5 中 切除 。 这 个 过 程 到 这 里 结束 , 因为 5 是 未 作 标记 的 。 现 
在 把 节点 5 作 上 标记 。 结 果 如 图 11-20 所 示 。 





图 11-20 在 decreaseKey 操作 之 后 斐 波 那 契 堆 中 得 到 的 结果 


注意 , 过 去 被 作 过 标记 的 节点 10 和 33 不 再 被 标记 ,因为 现在 它们 都 是 根 节点 。 这 对 于 我 们 
在 时 间 界 的 证 明 中 是 极其 重要 的 。 
11.4.4 时 间 界 的 证 明 

注意 , 标记 节点 的 原因 是 我 们 需要 给 任 一 节点 的 秩 R( 儿 子 的 个 数 ) 确 定 一 个 界 。 现 在 证 明 
RAN 个 后 言 的 任意 节点 的 秩 为 O(log N). 

引 理 11.1 令 X 是 斐 波 那 契 堆 中 的 任 一 节点 。 令 c; AX 的 第 i 个 最 年 轻 的 儿子 。 则 c; HR 
至 少 是 i 一 2。 

WERA: 

在 c, 被 链接 到 X 上 时 , X 已 经 有 (年 长 的 ) 儿 子 cj,cz,，……ci-1。 于 是 ,， 当 链接 到 c; HX BL 
有 i 一 1 个 儿子 。 由 于 节点 只 有 当 它 们 有 相同 的 秩 的 时 候 才 链接 , 由 此 可 知 在 c; 被 链接 到 X .上 时 
c; 至 少 也 有 i 一 1 个 儿子 。 从 这 个 时 候 起 , 它 可 能 已 经 至 多 失去 一 个 儿子 , 否则 它 就 已 经 被 从 X 
切除 。 因 此 ，c; 至 省 有 i 一 2 个 儿子 。 | 

从 引 理 11.1 容易 证 明 , KA 尺 的 任意 节点 必然 有 许多 的 后 裔 。 
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引 理 11.2 $ F, EH Fo-1,F,71, UR F,— F,-,* F, 45EXCCM, 1.2 15) B SEQ SS SEC 
秩 为 RE Fe. Cae (BHEAC). 


WE BB - 
4 Sp BRA R 的 最 小 的 树 。 显 然 ， So。=1 和 SI=2。 根 据 引 理 11.1, KA R 的 一 棵 树 必然 含有 
Bk R-2, R-3, …, 1, 和 0 的 子 树 , 再 加 上 另 一 棵 至 少 有 一 个 节点 的 子 树 。 连 同 SR 的 根本 身 


一 起 , 这 就 给 出 S. = 2+ 2 S Sisi) 的 一 个 最 小 值 。 容 易 证 明 ， Se= Fes (J 1.112). ü 


因为 众所周知 张波 那 契 数 是 以 指数 增长 ， 所 以 直接 推出 具有 个 后 裔 的 任意 节点 的 秩 最 多 为 
O(log s)o FH, 我 们 有 

引 理 11.3 ” 斐 波 那 契 堆 中 任意 节点 的 秩 为 O(log N)。 

WERA: 

直接 从 上 面 的 讨论 得 出 。 E 

假如 我 们 所 关心 的 只 是 merge、insert 以 及 deleteMin 等 操作 的 时 间 界 , 那么 我 们 现在 就 可 以 
停止 并 证 明 所 要 的 摊 还 时 间 界 了 。 当 然 , 斐 波 那 契 堆 的 全 部 意义 在 于 还 要 得 到 一 个 decreaseKey 
的 O(1) 时 间 界 。 

对 于 一 次 decreaseKey 操作 所 需要 的 实际 时 间 是 1 加 上 在 该 操作 期 间 所 执行 的 级 联 切 除 的 次 
数 。 由 于 级 联 切 除 的 次 数 可 能 会 比 O(1) 多 很 多 , 为 此 我 们 需要 用 位 势 的 损失 来 作为 补偿 。 从 图 
11-20 我 们 看 到 , 树 的 棵 数 实 际 上 是 随 着 每 次 级 联 切 除 而 增加 ,因此 我 们 必须 增强 位 势 函 数 , 使 
它 包含 某 种 在 级 联 切除 期 间 能 够 递减 的 成 分 。 注 意 , 我 们 不 能 从 位 势 郴 数 中 抛 开 树 的 棵 数 ， 因 为 
这 样 就 不 能 够 证 明 merge 操作 的 时 间 界 了。 再 次 观察 图 11-20 我 们 看 到 , 级 联 切 除 引起 被 标记 的 
节点 的 个 数 的 减少 , 因为 每 个 被 级 联 切 除 分 出 的 节点 都 变 成 了 未 标记 的 根 。 由 于 每 个 级 联 切除 
均 花 费 1 个 单元 的 实际 时 间 并 将 树 的 位 势 增加 1, 因此 我 们 将 每 个 标记 的 节点 算 作 2 个 位 势 单 
位 。 利 用 这 种 方法 , 我 们 就 获得 一 种 消除 级 联 切除 次 数 的 机 会 。 

定理 11.4 斐 波 那 契 堆 对 于 insert ,merge 和 decreaseKey 的 挫 还 时 间 界 均 为 O(1), 而 对 于 
deleteMin 则 是 O(log N). 

证 阴 : 

位 势 是 斐 波 那 契 堆 的 集合 中 树 的 棵 数 加 上 两 倍 的 标记 节点 数 。 像 通常 一 样 ， 初始 的 位 势 为 0 
并 且 总 是 非 负 的 。 于 是 , 经 过 一 系列 操作 之 后 , 总 的 摊 还 时 间 则 是 总 的 实际 时 间 的 一 个 上 界 。 

对 于 merge 操作 , 实际 时 间 为 常数 , 而 树 和 标记 节点 的 数目 是 不 变 的 , 因此 根据 方程 (11.2)， 
摊 还 时 间 为 O(1)。 

对 于 insert 操作 , 实际 时 间 是 常数 , 树 的 棵 数 增 加 1， 而 标记 节点 的 个 数 不 变 。 因 此 , 位 势 
最 多 增加 1, 所 以 摊 还 时 间 也 是 O(1)。 

对 于 deleteMin 操作 , © R 为 包含 最 小 元 素 的 树 的 秩 , HO T 是 操作 前 树 的 棵 数 。 为 执行 
一 次 deleteMin, 我 们 再 一 次 将 树 的 儿子 分 离 , 得 到 另外 R 棵 新 的 树 。 注 意 , 虽然 这 (通过 使 它们 
成 为 未 标记 的 根 ) 可 以 除去 一 些 标记 的 节点 ,但 却 不 能 创建 另外 的 标记 节点 。 这 R 棵 新 树 ， 和 其 
R T 棵 树 一 起 ,现在 必须 合并 , 根据 引 理 11.3 其 花费 为 个 + R+logN= T+ O(log N)。 由 于 最 
多 可 能 有 O(log NRA, 而 标记 节点 的 个 数 又 不 可 能 增加 ,因此 位 势 的 变化 最 多 是 O(log N) - 
T。 将 实际 时 间 和 位 势 的 变化 加 起 来 则 得 到 deleteMin 的 O(log N ) 挫 还 时 间 界 。 

最 后 考虑 decreaseKey 操作 。 令 C 为 级 联 切 除 的 次 数 。decreaseKey 的 实际 花费 为 C+1, 它 是 
所 执行 的 切除 的 总 数 。 第 一 次 ( 非 级 联 ) 切 除 创建 一 棵 新 树 从 而 使 位 势 增 1。 每 次 级 联 切除 都 建立 一 
棵 新 树 , 却 把 一 个 标记 节点 转变 成 未 标记 的 ( 根 ) 节 点 , 合计 每 次 级 联 切 除 有 一 个 单位 的 净 损 失 。 最 后 
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一 次 切除 也 可 能 把 一 个 未 标记 节点 (在 图 11-20 中 这 个 节点 为 5) 转 变 成 标记 节点 , 这 就 使 得 位 势 增加 
2。 因 此 , 位 势 总 的 变化 最 多 是 3 - C。 把 实际 时 间 和 位 势 变化 加 起 来 则 得 到 总 和 为 4, AOU). MI 


11.5 伸展 树 


作为 最 后 一 个 例子 , 我 们 来 分 析 伸 展 树 的 运行 时 间 。 由 第 4 章 得 知 , 在 对 某 项 X 进行 访问 之 
fa, 一 步 展 开通 过 下 述 三 种 一 系列 的 树 操作 将 X 移 至 根 处 : 单 旋转 (zig)、 之 字形 (zig-zag) 旋 转 和 
一 字形 (zig-zig) 旋 转 。 树 的 这 些 旋转 如 图 11-21 所 示 。 我 们 约定 : 如 果 在 节点 X 执行 一 次 树 的 旋 
转 , 那么 旋转 前 P 是 它 的 父 节 点 ,，G 是 它 的 祖父 节点 ( 若 X 不 是 根 的 儿子 )。 





图 11-21 单 旋 转 、 之 字形 和 一 字形 双 旋 转 操作 ; 每 个 都 有 一 个 对 称 的 情形 (未 示 出 ) 


我 们 知道 , 对 节点 X 任意 的 树 操作 所 需 的 时 间 正 比 于 从 根 到 X 的 路 径 上 的 节点 的 个 数 。 如 
果 我 们 把 每 个 单 旋转 操作 计 为 一 次 旋转 , 把 每 个 之 字形 操作 或 一 字形 操作 计 为 两 次 旋转 , 那么 任 
何 访问 的 花费 等 于 1 加 上 旋转 的 次 数 。 

为 了 证 明 展 开 操 作 的 O(log N) 挫 还 时 间 界 , 我 们 需要 一 个 位 势 函 数 , 该 函数 对 整个 展开 操 
作 最 多 能 够 增加 O(log N) 而 且 在 该 步 操 作 期 间 也 消去 所 执行 的 旋转 的 次 数 。 找 出 满足 这 些 原则 
的 位 势 申 数 根本 不 是 一 件 容易 的 事情 。 首 先 容易 猜 到 的 位 势 消 数 或 许 就 是 树 上 所 有 节点 的 深度 
的 和 。 这 个 猜测 行 不 通 , 因为 位 势 在 一 次 访问 期 间 可 能 增加 B@(N)。 当 一 些 元 素 以 连贯 顺序 插入 
时 会 有 这 样 的 典型 例子 发 和 后 

一 个 确实 有 效 的 位 势 函数 定义 为 


(T) = 2; logS(i) 


其 中 S(i) 代 表 站 的 后 裔 的 个 数 (包括 站 自 身 )。 这 个 位 势 函数 是 对 树 T. PUB T s i 所 取 的 S(i) 的 
对 数 和 。 
为 简化 记号 , 我 们 定义 


R(i)= logS(i) 
这 使 得 
®(T) = URC) 


R(i) 代 表 节 点 i 的 秩 (rank) 。 这 个 术语 类 似 于 在 不 相交 集 算法 、 二 项 队列 和 斐 波 那 契 堆 的 分 析 
中 所 使 用 的 术语 。 在 所 有 这 些 数据 结构 中 , 秩 的 意义 多 少 有 些 不 同 ,不 过 , 秩 一 般 是 指 树 的 大 小 
的 对 数 的 阶 (幅度 一 _magnitude)。 对 于 具有 N 个 节点 的 一 棵 树 芽 , 根 的 秩 就 是 R(T) = logN。 


Download at http:// www.pinb5i.com/ 


352 #11 È 





用 秩 的 和 作为 位 势 哆 数 类 似 于 使 用 高 度 的 和 作为 位 势 函 数 。 重 要 的 差别 在 于 ， 当 一 次 旋转 可 以 
改变 树 中 许多 节点 的 高 度 时 , WRA X,P 和 G 的 秩 发 生变 化 。 

在 证 明 主 要 的 定理 之 前 , 我 们 需要 下 列 的 引 理 。 

引 理 11.4 MRatb<c, Ha Hb 均 为 正 整 数 , 那么 


loga + logb<2loge ~ 2 


WERA: 
根据 算术 - 几何 平均 不 等 式 ， 


V ab(a * b)/2 


于 是 
V ab<c/2 
两 边 平 方 得 到 
abc? /4 
两 边 再 取 对 数 则 定理 得 证 。 
我 们 现在 就 来 证 明 主 要 定理 , 证 明 过 程 中 要 注意 所 用 到 的 一 些 预备 知识 。 E 
定理 11.5 在 节点 X 展开 一 棵 根 为 了 的 树 的 摊 还 时 间 最 多 为 3(R(T) - R(X)) +15 
WERF : 
位 势 郴 数 取 工 中 节点 的 秩 的 和 。 


如 果 X 是 T 的 根 , 那么 不 存在 旋转 , 因此 位 势 没有 变化 。 访 问 该 节点 的 时 间 是 1; 于 是 , HE 
还 时 间 为 1, 定理 成 立 。 因 此 , 我 们 可 以 假设 至 少 有 一 次 旋转 。 

对 于 任意 一 步 展开 操作 , © Ri(X) 和 Si(X) 是 在 这 步 操作 前 X 的 秩 和 大 小 , 并 令 Rr(X) 和 
Sr(X) 是 在 这 步 展 开 操作 后 X 的 秩 和 大 小 。 我 们 将 证 明 对 一 次 单 旋 转 所 需要 的 摊 还 时 间 最 多 为 
3(Rr(X) 一 Ri(X)) +1, 而 对 一 次 之 字形 旋转 或 一 字形 旋转 的 摊 还 时 间 最 多 为 3( R(X) - 
Ri(X))。 我 们 将 证 明 ， 当 我 们 对 所 有 各 步 展 开 求 和 时 ,所 得 到 的 和 就 是 想 要 的 时 间 界 。 

一 步 单 旋转 : 对 于 单 旋转 , 实际 时 间 为 1， 而 位 势 变化 为 Ri(X)+Rr(P)-Ri(X)- Ri(P)。 
注意 , 位 势 变化 容易 计算 , 因为 只 有 X 和 P 的 树 大 小 有 变化 。 于 是 ， 

ATA, 71* Re X) + RCP) - R(X) - RCP) 
从 图 11-21 我 们 看 到 S; (P)Z SíCP) ; 因此 得 到 R(P)SRAP). RF, 
ATA&l* RjX) - R(X) 
由 于 S((X)2S(X), 于 是 ROO - R/(X)2:0, 因此 我 们 可 以 增加 右边 , 得 到 
AT, + 3(R(X) - R(X)) 
一 步 之 字形 旋转 : 对 于 这 种 情况 , 实际 的 花费 是 2, 而 位 势 变化 为 Rr(X) + Rr(P)+ RO) 
- R;(X)- Ri(P) 一 R;(G)。 这 就 给 出 一 个 挫 还 时 间 界 
AT vig wn =2+ R(X)+RAP)+ R(G) - R(X) - R,(P)- R,(G) 
从 图 11-21 我 们 看 到 ，Sr(X) = S;(G), 于 是 它们 的 秩 必然 相等 。 因 此 我 们 得 到 
AT vig - =2+ Ry(P) + R(G) - R(X) - R((P) 
我 们 还 看 到 S, (P)ZS, OX). Ah R;(X) 三 R;(P)。 代 入 右边 得 到 
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AT wig ay &2 + Ri(P)+ Ri(G)—2R(X) 
从 图 11-21 我 们 看 到 Sr(P) + Sj/(G) 志 Si(X)。 如 果 应 用 引 理 11.4, 那么 得 到 
logS;( P) + logS,( G)2logS,( X) -2 
由 秩 的 定义 可 知 , 它 变 成 
RAP)+ R(G)&2R,(X) -2 
我 们 将 其 代入 , 则 得 
AT vig -2R(X) -2R;CX) 
«2(R,CX) - RCX)) 
由 于 RÁ(X)RROO, 因此 得 到 
| AT ag- a, S3 (RAX) - R(X)) 

一 步 一 字形 旋转 : 第 三 种 情况 就 是 一 字形 旋转 。 这 种 情形 的 证 明 非 常 类 似 于 之 字形 的 情形 。 
重要 的 不 等 式 是 Rr(X)= R(G), R(GX)ZR(O), ROX)&R;(G), UR S(OX) + S(G)S SO 
我 们 把 具体 细节 留 作 练 习 11.8. | 

整个 展开 的 摊 还 花费 是 各 步 展 开 的 摊 还 花费 的 和 。 图 11-22 显示 在 节点 2 的 一 次 展开 中 所 执 
行 的 各 步 展开 的 过 程 。 令 Ri1(2)、R,(2)、R;(2) 
和 R,(Q)J&3X 4 棵 树 每 棵 在 节点 2 的 秩 。 第 
一 步 是 之 字形 旋转 , 其 花费 最 多 为 3( R,(2) 
一 Ri1(2))。 第 二 步 是 一 字形 旋转 , 其 花费 为 
3(R4(2) - R,(2))。 最 后 一 步 是 单 旋转 , dE 
费 不 超过 3( Ra(2) - R3(2))+1。 因 此 总 的 花 
费 是 3(R4(2) 一 R1(2))+1。 

一 般 地 , 通过 把 所 有 旋转 (其 中 最 多 有 一 
个 旋转 可 能 是 一 次 单 旋转 ) 的 挫 还 时 间 加 起 
来 , 我 们 看 到 , 在 节点 X 展开 的 总 的 摊 还 时 
间 最 多 为 3(Rr(X) -Ri(X))+1, 其 中 Ri(X) 是 X 在 第 一 步 展开 前 的 秩 , 而 Rr(X) 是 X 在 最 后 
一 步 展 开 后 的 秩 。 由 于 最 后 一 次 展开 把 X 留 在 根 处 ,因此 我 们 得 到 3(Rr(T)- RiCX))+1 的 捧 
还 界 , 这 个 界 为 O(log N)。 m 

因为 对 一 棵 伸展 树 的 每 一 次 操作 都 需要 一 次 展开 , 因此 任意 操作 的 摊 还 时 间 是 在 一 次 展开 
的 摊 还 时 间 的 一 个 常数 倍数 之 内 。 因 此 , 所 有 伸展 树 操作 花费 O(log N) 摊 还 时 间 。 通 过 使 用 更 
一 般 的 位 势 函 数 , 能 够 证 明 伸展 树 具 有 若干 显著 的 性 质 。 更 多 的 细节 在 练习 中 讨论 。 


小 结 


我 们 在 这 一 章 看 到 摊 还 分 析 如 何 用 于 在 一 些 操作 间 分 配 负荷 。 为 了 进行 分 析 , 我 们 构造 一 
个 虚构 的 位 势 函 数 , 这 个 位 势 函 数 度量 系统 的 状态 。 高 位 势 的 数据 结构 是 易 变 的 , 它 建立 在 相对 
低廉 的 操作 之 上 。 当 昂贵 的 花费 来 自 一 次 操作 时 , 它 会 由 前 面 一 些 操作 节省 下 的 积 鞋 来 支付 。 
可 以 把 位 势 看 成 是 对 付 灾 难 的 潜能 , 因为 非常 昂贵 的 操作 只 有 在 数据 结构 具有 一 个 高 位 势 以 及 
已 经 使 用 了 比 规 定 的 显著 少 的 时 间 的 时 候 才 可 能 发 生 。 

数据 结构 中 的 低位 势 意味 着 每 次 操作 的 花费 大 致 等 于 指定 给 它 的 消耗 量 。 负 位 势 意味 着 欠 
债 ; 花费 的 时 间 多 于 规定 的 时 间 , 因此 分 配 (或 摊 还 ) 的 时 间 不 是 一 个 有 意义 的 界 。 

正如 方程 (11.2) 所 表达 的 , 一 次 操作 的 摊 还 时 间 等 于 实际 时 间 和 位 势 变化 的 和 。 整 个 操作 
序列 的 排 还 时 间 等 于 总 的 序列 操作 时 间 加 上 位 势 的 净 变 化 。 只 要 这 个 净 变 化 是 正 的 , 那么 摊 还 





图 11-22 在 节点 2 展开 中 涉及 的 展开 各 步 


Download at http:// www.pinb5i.com/ 


354 


第 11 章 





界 就 提供 实际 时 间 花 费 的 一 个 上 界 并 且 是 有 意义 的 。 


选择 位 势 函 数 的 关键 在 于 保证 最 小 的 位 势 要 产生 在 算法 的 开始 , 并 使 得 位 势 对 低廉 的 操作 


增加 而 对 高 昂 的 操作 减少 。 重 要 的 是 过 剩 或 节省 的 时 间 要 由 位 势 中 相反 的 变化 来 度量 。 不 幸 的 
是 , 有 时 候 这 说 着 容易 做 起 来 难 。 


练习 
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11. 


13 


何 时 向 一 个 二 项 队列 进行 连续 M 次 插入 花费 少 于 2M 个 时 间 单 位 的 时 间 ? 
设 有 一 个 N=2* 一 1 个 元 素 的 二 项 队列 。 交 替 进 行 M 对 insert 和 deleteMin 操作 。 显 
R, 每 次 操作 花费 O(log N) 时 间 。 为 什么 这 与 插入 的 O(1) 摊 还 时 间 界 不 矛盾 ? 
通过 给 出 一 系列 导致 一 次 merge 需要 @(N) 时 间 的 操作 , 证 明 对 于 课文 中 描述 的 斜 堆 操 
作 的 O(log N) 摊 还 界 不 能 转换 成 最 坏 情 形 界 。 
指出 如 何 进行 一 趟 自 顶 向 下 地 合并 两 个 斜 堆 , 并 将 merge 的 开销 减 到 O(1) 摊 还 时 间 。 
扩展 斜 堆 以 支持 具有 O(log N) 摊 还 时 间 的 decreaseKey 操作 。 
实现 斐 波 那 契 堆 ,并 比较 其 与 二 又 堆 在 用 于 Dijkstra 算法 时 的 性 能 。 
斐 波 那 契 堆 的 标准 实现 方法 需要 每 个 节点 4 个 链 (父亲 、 儿 子 以 及 两 个 兄弟 )。 指 出 如 
何 减少 链 的 数量 而 最 多 花费 运行 时 间 的 一 个 常数 倍 。 
证 明 一 次 一 字形 展开 的 摊 还 时 间 最 多 为 3(Rr(X) - R;(X)) 0 
通过 改变 位 势 函 数 能 够 证 明 展开 操作 的 不 同 的 界 。 令 权 函 数 (weight function) W(i) 为 
指定 给 树 中 每 个 节点 的 某 个 函数 , 令 S(i) 为 以 i 为 根 的 子 树 上 所 有 节点 (包括 节点 i 本 
身 ) 的 权 的 和 。 对 于 与 用 在 展开 界 的 证 明 中 的 函数 相对 应 的 所 有 的 节点 的 特殊 情况 为 
W(i)- 1. SN 为 树 中 节点 的 个 数 , 并 令 M 为 访问 的 次 数 。 证 明 下 列 两 个 定理 : 
a. 总 的 访问 时 间 是 O(M + (M+ N)log N)。 
b. 如 果 9 为 项 i 被 访问 的 次 数 , 而 对 所 有 的 i, 有 g;>0, 那么 总 的 访问 时 间 为 
O(M + > qlog(M/g)) 

a. 指出 如 何 实 现 对 伸展 树 的 merge 操作 使 得 从 N 个 单元 素 树 开始 的 任意 顺序 的 N 一 1 

次 merge 操作 花费 O( Nlog? N) 时 间 。 
b. 将 这 个 界 改进 为 O(N log N)。 
我 们 在 第 5 章 描述 了 再 散 列 (rehashing) : 当 一 个 表 的 表 元 素 超过 容量 一 半 的 时 候 , 则 构 
造 一 个 两 倍 大 的 新 表 , 且 整 个 的 旧 表 要 被 再 散 列 。 使 用 位 势 函数 给 出 一 个 正式 的 摊 还 
分 析 来 证 明 一 次 插入 操作 的 摊 还 时 间 仍 为 D(1)。 | 
斐 波 那 契 堆 的 最 大 深度 是 多 少 ? 
具有 堆 序 的 双 端 队列 (deque) 是 由 一 些 项 的 表 组 成 的 数据 结构 , 可 以 对 其 进行 下 列 操作 : 
push(x): 将 项 x 插入 到 双 端 队列 的 前 端 。 
pop(): 从 双 端 队列 中 除去 前 端 项 并 将 它 返 回 。 
inject(x): 把 项 z 插入 到 双 端 队列 的 尾 端 。 
eject(): 从 双 端 队列 中 除去 尾 端 项 并 将 它 返回 。 
findMin(): 返回 双 端 队列 的 最 小 项 。 
a. 描述 如 何以 每 次 操作 常数 摊 还 时 间 支 持 这 些 操作 。 


b. 描述 如 何以 每 次 操作 常数 最 坏 情形 时 间 支 持 这 些 操作 。 


.14 


证 明 二 项 队列 实际 上 以 O(1) 摊 还 时 间 支 持 合并 操作 。 定 义 二 项 队列 的 位 势 为 树 的 棵 


Download at http:// www.pin5i.com/ 


iE DH 


11.15 
11.16 


11.17 
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假设 为 了 节省 时 间 , 我 们 把 展开 对 每 隔 一 次 树 操作 进行 。 摊 还 的 开销 还 是 对 数 的 吗 ? 
在 伸展 树 的 界 的 证 明 中 使 用 位 势 函数 , 伸展 树 的 最 大 位 势 和 最 小 位 势 是 什么 ? 在 一 次 展开 中 ， 


位 势 隔 数 可 以 减少 多 少 ? 在 一 次 展开 中 , 位 势 函 数 可 以 增加 多 少 ? 你 可 以 给 出 大 O 解 答 。 


的 深度 的 对 数 进行 。 
a. 该 位 势 阴 数 的 最 大 值 是 多 少 ? 
b. 该 位 势 郴 数 的 最 小 值 是 多 少 ? 


c. 问题 (a) 和 (b) 的 管 案 的 差 给 出 某 种 提示 ，, 即 该 位 势 函 数 不 是 太 好 。 证 明 : 一 次 展开 


操作 可 能 增加 位 势 @(N /logN)。 
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作为 展开 的 结果 , 在 访问 路 径 上 的 大 部 分 节点 都 朝 根 的 方向 移动 , 而 该 路 径 上 的 少数 几 
个 节点 却 向 下 移动 一 层 。 这 就 提出 使 用 一 个 和 作为 位 势 函 数 的 想法 ,该 和 对 所 有 节点 


第 12 章 ”高 级 数据 结构 及 其 实现 


本 章 讨 论 7 种 重点 在 于 实用 性 的 数据 结构 。 首 先 考 查 第 4 章 讨论 过 的 AVL 树 的 一 些 变 种 ， 
包括 优化 的 伸展 树 、 红 黑 树 、 跳 跃 表 的 确定 性 形式 (第 10 章 已 讨论 过 )、AA 树 以 及 treap 树 。 

然后 我 们 考查 一 种 可 以 用 于 多 维 数 据 的 数据 结构 。 在 这 种 情况 下 , 每 一 项 均 可 有 多 个 关键 
字 。A-d 树 对 任何 关键 字 都 能 进行 相关 的 查找 。 

最 后 , 我 们 考查 配对 堆 (pairing heap),， 它 似乎 是 斐 波 那 契 堆 最 实用 的 变种 。 

复议 的 论题 包括 : 

。 在 适当 的 时 候 非 递归 地 自 顶 向 下 (而 不 是 自 底 向 上 ) 查 找 树 的 一 些 程序 实现 。 

© 一 些 详细 、 优 化 的 尤其 是 利用 标记 节点 的 程序 实现 。 


12.1 自 项 向 下 伸展 树 


在 第 4 章 , 我 们 讨论 了 基本 的 伸展 树 操作 。 当 一 项 X 作为 树叶 被 插入 时 , 称 为 展开 (splay) 
的 一 系列 的 树 旋 转 使 得 X 成 为 树 的 新 根 。 展 开 也 在 查找 期 间 执 行 , 而 且 如 果 一 项 没有 找到 , 那 
么 展开 就 要 对 访问 路 径 上 的 最 后 的 节点 实施 。 在 第 11 章 , 我 们 指出 一 次 展开 树 操 作 的 摊 还 时 间 
为 O(log N)。 

这 种 方法 的 直接 实现 需要 从 根 沿 树 往 下 的 一 次 遍历 , 以 及 而 后 的 从 底 向 上 的 一 次 遍历 来 实 
现 这 步 展 开 操作 。 这 也 可 以 通过 保存 一 些 父 链 来 完成 , 还 可 以 通过 将 访问 路 径 存 储 到 一 个 栈 中 
来 完成 。 但 遗憾 的 是 , 这 两 种 方法 均 需 大 量 的 系统 开销 , 而 且 二 者 都 必须 处 理 许多 特殊 的 情形 。 
在 这 一 节 , 我 们 指出 如 何在 初始 访问 路 径 上 施行 一 些 旋转 。 结 果 得 到 在 实践 中 更 快 的 过 程 ， 只 用 
到 O(1) 的 附加 空间 , 但 却 保持 了 O(log N) 的 摊 还 时 间 界 。 

图 12-1 列 出 了 单 旋转 、 一 字形 和 之 字形 的 旋转 。( 按 照 惯例 , 我 们 忽略 三 种 对 称 的 旋转 。) 在 
访问 的 任 一 时 刻 , 我 们 都 有 一 个 当前 节点 X, 它 是 其 子 树 的 根 ; 在 我 们 的 图 中 它 被 表示 成 “中 间 ” 
WO, BL 存储 在 树 T 中 但 不 在 X 的 子 树 中 的 小 于 2 的 节点 ; 类 似 地 , BER 存储 在 树 工 中 , 但 
不 在 X 的 子 树 中 的 大 于 2Z 的 节点 。 初 始 时 X 为 开 的 根 , TL 和 R 是 空 树 。 

如 果 旋 转 是 一 次 单 旋转 , 那么 根 在 Y 的 树 变 成 中 间 树 的 新 根 。X 和 子 树 BEAR 中 最 小 项 
的 左 儿 子 而 附 接 到 R 上 ; 逻辑 上 XX WAIL FRA nu119。 结 果 , X RAR 的 新 的 最 小 项 。 特 别 
要 注意 , 为 使 单 旋转 情形 适用 ，Y 不 一 定 必须 是 一 片 树叶 。 如 果 我 们 查找 小 于 Y 的 项 , mj Y 没 
有 左 儿 子 ( 但 确 有 一 个 右 儿 子 ), 那么 这 种 单 旋 转 情形 将 是 适用 的 。 

对 于 一 字形 情形 , 我 们 有 类 似 的 剖析 。 关 键 是 在 X AY 之 间 施 行 一 次 旋转 。 之 字形 情形 的 
旋转 把 底部 节点 Z 带 到 中 间 树 的 顶部 , 并 把 子 树 X AY 分 别 附 接 到 R AL E. HX, Y 被 附 接 
后 从 而 成 为 工 中 的 最 大 项 。 

之 字形 旋转 这 一 步 多 少 可 以 得 到 简化 , 因为 没有 旋转 要 执行 , 我 们 不 再 让 Z 成 为 中 间 树 的 
R, 而 是 让 Y 成 为 其 根 , 如 图 12-2 所 示 。 因 为 之 字形 情形 的 动作 变 成 与 单 旋转 情形 相同 , 所 以 
编程 得 到 简化 。 看 起 来 这 是 有 利 的 , 因为 对 大 量 情形 的 测试 是 要 费时 的 。 其 缺点 在 于 , 仅仅 为 了 


O 为 简单 起 见 ， 我 们 不 区 分 节点 及 其 上 的 项 。 
O 在 程序 中 R 的 最 小 节点 没有 mll 左 链 ,因为 没有 必要 。 这 意味 着 .printTree{r) 将 包含 某 些 项 .这 些 项 逻辑 上 不 在 R 中 、 
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图 12-1 自 顶 向 下 展开 旋转 : 单 旋 转 、 一 字形 旋转 及 之 字形 旋转 


QU Y) 
y MES 
AK NM ^. 


12-2 简化 的 自 顶 向 下 的 之 字形 旋转 


图 12-3 指出 一 旦 执行 完 最 后 一 步 展开 , 我 们 将 如 何 处 理 L、R 和 中 间 树 以 形成 一 棵 树 。 特 
别 要 注意 , 这 里 的 结果 不 同 于 从 底部 向 上 的 展开 。 关 键 的 问题 在 于 它 保 持 了 O(log N) 的 挫 还 界 


( 见 练习 12.1)。 
A) © 
AN A A ZN 
AN 2 


图 12-3 自 项 向 下 展开 的 最 后 整理 


顶部 向 下 展开 算法 的 一 个 例子 如 图 12-4 所 示 。 我 们 想 要 访问 树 中 的 19。 第 一 步 是 一 个 之 字 
形 旋转 。 根 据 图 12-2 的 对 称 形 式 , 我 们 把 根 在 25 的 子 树 带 到 中 间 树 的 根 处 , 并 把 12 RAAT 
树 附 接 到 L Eo 

下 一 步 是 一 个 一 字形 旋转 : 15 被 提升 到 中 间 树 的 根 处 , 并 在 20 和 25 之 间 进 行 一 次 旋转 ,所 
得 到 的 子 树 被 附 接 到 R 上 。 此 时 查找 19 导致 最 后 的 单 旋 转 。 中 间 树 的 新 根 为 18, 而 15 RHA 
子 树 作为 L 最 大 节点 的 右 儿子 被 附 接 到 LL 上。 根据 图 12-3 重新 组 装 则 结束 该 步 展 开 。 

我 们 将 使 用 带 有 左 链 和 右 链 的 一 个 头 (header) 最 终 引 用 左 树 的 根 和 右 树 的 根 。 由 于 这 两 棵 树 
初始 为 空 , 因此 使 用 一 个 头 分 别 对 应 初始 状态 右 树 或 左 树 的 最 小 或 最 大 节点 。 这 种 方法 可 以 使 
得 程序 避免 检测 空 树 。 第 一 次 左 树 变 成 非 空 时 , 右 链 将 被 初始 化 并 在 以 后 保持 不 变 ; 这 样 , EB 
顶 向 下 查找 的 最 后 它 将 包含 左 树 的 根 。 类 似 地 , 左 链 最 终 将 包含 右 树 的 根 。 

SplayTree 类 的 架构 如 图 12-5 所 示 , 它 包 括 一 个 构造 方法 , 用 来 分 配 nullNode 标记 。 我 们 使 
用 标记 nullNode 逻辑 上 表示 一 个 null 引用 。 我 们 将 反复 使 用 这 种 技术 来 简化 程序 (因而 使 得 程 
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序 多 少 要 快 一 些 )。 图 12-6 给 出 展开 过 程 的 程序 。 这 里 的 header 节点 使 我 们 肯定 能 够 把 X 附 接 
AR 的 最 大 节点 上 而 不 必 担 心 R 可 能 是 空 的 (对 于 处 理工 的 对 称 的 情形 类 似 地 进行 )。 


ra 


简化 的 之 字形 旋转 | 


空 空 





12-4 《访问 上 面 树 中 的 19) 自 顶 向 下 展开 的 各 步 


public class SplayTree<AnyType extends Comparable<? super AnyType>> 
{ 
public SplayTree( ) 


{ 
nullNode = new BinaryNode<AnyType>( null ); 


nullNode.left = nullNode.right = nullNode; 
root = nullNode; 


} 


private BinaryNode<AnyType> splay( AnyType x, BinaryNode«AnyType» t ) 
( /* Figure 12.6 */ } 

public void insert( AnyType x ) 
{ /* Figure 12.7 */ } 

public void remove( AnyType x ) 
( /* Figure 12.8 */ ) 





图 12-5 伸展 树 : 类 架构 
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public AnyType findMin{ ) 
( /* See online code */ } 
public AnyType findMax( ) 
( /* See online code */ } 
public boolean contains( AnyType x ) 
( /* See online code */ } 
public void makeEmpty( ) 
{ root = nullNode; } 
public boolean isEmpty( ) 
( return root == nullNode; } 


// Basic node stored in unbalanced binary search trees 


private static class BinaryNode<AnyType> 
( /* Same as in Figure 4.16 */ ) 


private BinaryNode<AnyType> root; 

private BinaryNode«AnyType» nullNode; 

private BinaryNode«AnyType» header = new BinaryNode<AnyType>( null ); // For splay 
private BinaryNode<AnyType> newNode = null; // Used between different inserts 


private BinaryNode<AnyType> rotateWithLeftChild( BinaryNode<AnyType> k2 ) 
{ /* See online code */ | 

private BinaryNode<AnyType> rotateWithRightChild( BinaryNode<AnyType> kl ) 
{ /* See online code */ } 





图 12-5 (£4) 


— 

* Internal method to perform a top-down splay. 

* The last accessed node becomes the new root. 

* @param x the target item to splay around, 

* @param t the root of the subtree to splay. 

* @return the subtree after the splay. 

*/ 
private BinaryNode<AnyType> splay{ AnyType x, BinaryNode<AnyType> t ) 
{ 


COND UA AW Ne 


BinaryNode<AnyType> leftTreeMax, rightTreeMin; 


header.left = header.right = nullNode; 
leftTreeMax = rightTreeMin = header; 


nullNode.element = x;  // Guarantee a match 


for( ; ; ) 
if( x.compareTo( t.element ) « 0 ) 
{ 


if( x.compareTo( t.left.element ) < 0 ) 
t = rotateWithLeftChild( t ); 





图 12-6 自 顶 问 下 展开 方法 
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if( t.left == nullNode ) 
break; 
// Link Right 
rightTreeMin.left = t; 
rightTreeMin = t; 
t = t.left; 
) 
else if( x.compareTo( t.element ) » 0 ) 
{ 
if( x.compareTo( t.right.element ) > 0 ) 
t = rotateWithRightChild( t ); 
if( t.right == nullNode ) 
break; 
// Link Left 
leftTreeMax.right = t; 
leftTreeMax = t; 
t = t.right; 
} 
else 
break; 


leftTreeMax.right = t.left; 
rightTreeMin. left = t.right; 
t.left = header. right; 
t.right = header.left; 
return t; 





图 12-6 (9) 


如 上 所 述 , 在 展开 到 最 后 的 重新 组 装 之 前 ,header. left 和 header.right 分 别 引用 R FL 的 
根 ( 这 不 是 一 个 排 印 错误 ,而 是 遵守 链 的 指向 )。 除 了 这 个 细节 之 外 , 该 程序 是 相对 简单 的 。 

图 12-7 显示 将 一 项 插 人 到 树 中 的 方法 。 一 个 新 的 节点 (如 果 需 要 ) 被 分 配 , 且 如 果树 是 空 的 ， 
那么 就 建立 一 棵 单 节点 树 。 否 则 , 我 们 围绕 被 插入 的 值 x 展开 root。 若 新 根 的 数据 等 于 x, WA 
一 个 重复 元 ; 我 们 不 是 再 次 插入 r, 而 是 为 将 来 的 插入 保留 newNode 并 立即 返回 。 如 果 新 根 包含 
有 大 于 z 的 值 , 那么 新 根 及 其 右 子 树 就 变 成 newNode 8 — RATA, 而 root 的 左 子 树 则 成 为 
newNode 的 左 子 树 。 如 果 root 的 新 根 包 含有 小 于 z 的 值 , 那么 类 似 的 逻辑 仍然 适用 。 在 这 两 种 
情况 下 ，newNode 均 成 为 新 的 根 。 


** 
* [nsert into the tree. 
* (param x the item to insert. 
E 
public void insert( AnyType x ) 
{ 

if( newNode == null ) 

newNode = new BinaryNode<AnyType>{ null ); 





1 
2 
3 
4 
5 
6 
f 
8 


12-7 自 顶 向 下 伸展 树 的 insert 方法 
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newNode.element = x; 


if( root == nullNode ) 
{ 

newNode.left = newNode.right = nullNode; 
; root = newNode; 
} 
else 


{ 


root = splay( x, root ); 
if( x.compareTo( root.element ) < 0 ) 


newNode.left = root.left; 
newNode.right = root; 
root.left = nullNode; 
root = newNode; 


) 


else 
if( x.compareTo( root.element ) » 0 ) 
{ 
newNode.right = root.right; 
newNode. left = root; 
root.right = nullNode; 
root = newNode; 
} 
else 
return;  // No duplicates 
} 
newNode = null;  // So next insert will call new 





12-7 (#8) 


在 第 4 章 , 我 们 指出 伸展 树 中 的 删除 是 容易 的 , 因为 一 次 展开 将 把 删除 目标 放 在 根 处 。 最 后 
我 们 列 出 图 12-8 中 的 删除 例 程 。 删 除 过 程 比 对 应 的 插入 过 程 还 要 短 , 确实 罕见 。 


kk 
* Remove from the tree. 
* @param x the item to remove. 
*j ` 
public void remove( AnyType x ) 
{ 

BinaryNode<AnyType> newTree; 


Xo 00 4 OV URW DH 


// 1f x is found, it will be at the root 
root = splay( x, root ); 
if( root.element.compareTo( x ) != 0 ) 
return;  // Item not found; do nothing 


if( root. left == nullNode ) 





图 12-8 自 项 向 下 的 删除 过 程 
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newTree = root.right; 
else 


( 


// Find the maximum in the left subtree 
// Splay it to the root; and then attach right child 
newTree = root.left; 
newTree = splay( x, newTree ); 
newTree.ríght = root.right; 
— - newTree; 


) 





图 12-8 (£&) 


12.2 £L Ej 


历史 上 AVL 树 流行 的 另 一 变种 是 红 黑 树 (red black tree)。 对 红 黑 树 的 操作 在 最 坏 情 形 下 花 
$t O(log N) 时 间 , 而 且 我 们 将 看 到 ，( 对 于 插 人 操作 的 ) 一 种 审慎 的 非 递 归 实 现 可 以 相对 容易 地 
完成 (与 AVL RHH). 

红 黑 树 是 具有 下 列 着 色 性 质 的 二 叉 查 找 树 : 

1. 每 一 个 节点 或 者 着 成 红色 , 或 者 着 成 黑色 。 

2. 根 是 黑色 的 。 

3. 如 果 一 个 节点 是 红色 的 , 那么 它 的 子 节点 必须 是 黑色 的 。 

4. 从 一 个 节点 到 一 个 null 引用 的 每 一 条 路 径 必须 包含 相同 数目 的 黑色 节点 。 

着 色 法 则 的 一 个 结论 是 , 红 黑 树 的 高 度 最 多 是 2log( N + 1)。 因 此 , 查找 操作 保证 是 一 种 对 
数 的 操作 。 图 12-9 显示 一 棵 红 黑 树 , 其 中 的 红色 节点 
FAB BAe o 

和 通常 一 样 ， 困 难 在 于 将 一 个 新 项 插 人 到 树 中 。 
通常 把 新 项 作为 树叶 放 到 树 中 。 如 果 我 们 把 该 项 涂 成 9 & 

RE, 那么 肯定 违反 条 件 4, 因为 将 会 建立 一 条 更 长 的 图 12.9 红 黑 树 的 例子 (插入 序列 为 : 10,85， 
黑 节点 的 路 径 。 因此 ， 这 一 项 必须 涂 成 红色 。 如 果 它 15,70,20,60,30,50,65,80,90,40,5,55) 
的 父 节点 是 黑色 的 , 则 插 人 完成 。 如 果 它 的 父 节点 已 

经 是 红色 的 , 那么 得 到 连续 红色 的 节点 , 这 就 违反 了 条 件 3。 在 这 种 情况 下 , 我 们 必须 调整 该 树 
以 确保 满足 条 件 3( 且 又 不 引起 条 件 4 被 破坏 )。 用 于 完成 这 项 任务 的 基本 操作 是 颜色 的 改变 和 树 
的 旋转 。 

12.2.1 自 底 向 上 的 插入 

前 面 已 经 提 到 ,如 果 新 插入 的 项 的 父 节点 是 黑色 , 那么 插入 完成 。 因 此 , 将 25 插入 到 图 12- 
9 的 树 中 是 简单 的 操作 。 

如 果 父 节点 是 红色 的 , 那么 有 几 种 情形 (每 种 都 有 一 个 镜像 对 称 ) 需 要 考虑 。 首 先 , 假设 这 个 
父 节点 的 兄弟 是 黑色 的 (我 们 采纳 约定 : null 节点 都 是 黑色 的 )。 这 对 于 插 人 3 或 8 是 适用 的 , 但 
对 插入 99 不 适用 。 令 X 是 新 添加 的 树叶 ，P 是 它 的 父 节 点 ，S 是 该 父 节点 的 兄弟 ( 若 存在 ) G 
是 祖父 节点 。 在 这 种 情形 只 有 X 和 已 是 红色 的 ，G 是 黑色 的 , 否则 就 会 在 插入 前 有 两 个 相连 的 
红色 节点 ,违反 了 红 黑 树 的 法 则 。 采 用 伸展 树 的 术语 , X, PAG 可 以 形成 一 个 一 字形 链 或 之 字 
形 链 ( 两 个 方向 中 的 任 一 个 方向 ) .图 12-10 指 出 当 P 是 一 个 左 儿 子 时 (注意 有 一 个 对 称 情形 ) 我 
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们 应 该 如 何 旋转 该 树 。 即 使 X 是 一 片 树叶 , 我 们 还 是 画 出 较 一 般 的 情形 , 使 得 X 在 树 的 中 间 。 
后 面 我 们 将 用 到 这 个 较 一 般 的 旋转 。 





图 12-10 如 果 S 是 黑色 的 , 则 单 旋转 和 之 字形 旋转 有 效 


第 一 种 情形 对 应 P 和 G 之 间 的 单 旋转 , 而 第 二 种 情形 对 应 双 旋 转 , 该 双 旋 转 首先 在 X 和 P 
之 间 进 行 , 然后 在 X AG 之 间 进 行 。 当 编写 程序 时 , 我 们 必须 记录 父 节点 ,祖父 节点 , 以 及 为 了 
重新 连接 还 要 记录 曾祖 节点 。 

在 这 两 种 情形 下 , 子 树 的 新 根 均 被 涂 成 黑色 , 因此 ,即使 原来 的 曾祖 是 红色 的 , 我 们 也 排除 
了 两 个 相 邻 红色 节点 的 可 能 性 。 同 样 重要 的 是 , 这 些 旋转 的 结果 是 通 向 A, B 和 C 诸 路 径 上 的 黑 
色 节 点 个 数 保持 不 变 。， 

到 现在 为 止 一 切 顺 利 。 但 是 , 正如 我 们 企图 将 79 插入 到 图 12-9 树 中 的 情况 一 样 , 如 果 S 是 
红色 的 , 那么 会 发 生 什 么 情况 呢 ? 在 这 种 情况 下 , 初始 时 从 子 树 的 根 到 C 的 路 径 上 有 一 个 黑色 
节点 。 在 旋转 之 后 , 一 定 仍然 还 是 只 有 一 个 黑色 节点 。 但 在 这 两 种 情况 下 , 在 通 向 C 的 路 径 上 
都 有 三 个 节点 (新 的 根 ，G 和 S)。 由 于 只 有 一 个 可 能 是 黑色 的 , 又 由 于 我 们 不 能 有 连续 的 红色 节 
A, 于 是 我 们 必须 把 S 和 子 树 的 新 根 都 涂 成 红色 , 而 把 G( 以 及 第 4 个 节点 ) 涂 成 黑色 。 这 很 好 ， 
可 是 ,如 果 曾 祖 也 是 红色 的 那么 又 会 怎样 呢 ? 此 时 , 我 们 可 以 将 这 个 过 程 朝 着 根 的 方向 上 滤 , 就 
像 对 BB 树 和 二 叉 堆 所 做 的 那样 ,直到 不 再 有 两 个 相连 的 红色 节点 或 者 到 达 根 ( 它 将 被 重新 涂 成 黑 
色 ) 处 为 止 。 

12.2.2 自 顶 向 下 红 黑 树 

上 滤 的 实现 需要 用 一 个 栈 或 用 一 些 父 链 保存 路 径 。 我 们 看 到 ,如 果 使 用 一 个 自 项 向 下 的 过 
程 , 则 伸展 树 会 更 有 效 , 事实 上 我 们 可 以 对 红 黑 树 应 用 自 顶 向 下 的 过 程 而 保证 S 不 会 是 红色 的 。 

这 个 过 程 在 概念 上 是 容易 的 。 在 向 下 的 过 程 中 当 看 到 一 个 节点 X 有 两 个 红 儿 子 的 时 候 , 可 
使 x 呈 红 色 而 让 它 的 两 个 儿子 是 黑 的 。( 如 果 X EHR, — — 

则 在 颜色 翻转 后 它 将 是 红色 ,但 是 为 恢复 性 质 2 可 以 直 (2) 
接着 成 黑色 ) 图 12-11 显示 这 种 颜色 翻转 的 现象 ,只 有 当 12-11 颜色 翻转 : 只 有 当 X 的 父 节点 
X 的 父 节点 P 也 是 红 的 时 候 这 种 翻转 将 破坏 红 黑 的 法 则 。 是 红 的 时 候 我 们 才能 继续 旋转 

但 是 此 时 可 以 应 用 图 12-10 中 适当 的 旋转 。 如 果 X HR 

节点 的 兄弟 是 红色 会 如 何 呢 ? 这 种 可 能 已 经 被 从 顶 向 下 过 程 中 的 行动 所 排除 , 因此 X 的 父 节点 
的 兄弟 不 可 能 是 红色 ! 特别 地 ,如 果 在 沿 树 向 下 的 过 程 中 我 们 看 到 一 个 节点 Y 有 两 个 红 儿 子 ， 
那么 我 们 知道 Y 的 孙子 必然 是 黑 的 , 由 于 Y 的 儿子 也 要 变 成 黑 的 , 甚至 在 可 能 发 生 的 旋转 之 后 ， 
因此 我 们 将 不 会 看 到 两 屋 上 另外 的 红 节 点 。 这 样 ， 当 我 们 看 到 X, 若 X 的 父 节 点 是 红 的 , 则 X 
的 父 节 点 的 兄弟 不 可 能 也 是 红色 的 。 

例如 , 假设 要 将 45 插入 到 图 12-9 中 的 树 上 。 在 沿 树 向 下 的 过 程 中 , 我 们 看 到 50 有 两 个 红 
儿子 。 因 此 , 我 们 执行 一 次 颜色 翻转 , 使 SO 为 红 的 , 40 和 55 是 黑 的 。 现 在 SO 和 60 都 是 红 的 
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在 60 和 70 之 间 执 行 单 旋转 , 使 得 60 是 30 的 右 子 树 的 黑 根 , 而 70 和 50 都 是 红 的 。 如 果 我 们 在 
路 径 上 看 到 另外 的 含有 两 个 红 儿 子 的 节点 , 那么 我 们 
继续 执行 同样 的 操作 。 当 我 们 到 达 树 叶 时 , 把 45 作 
为 红 节点 插入 , 由 于 父 节点 是 黑 的 , 因此 插入 完成 。 
最 后 得 到 如 图 12-12 所 示 的 树 。 

如 图 12-12 所 示 , 所 得 到 的 红 黑 树 常常 平衡 得 很 | 
好 。 经 验 指出 ,平均 红 黑 树 大 约 和 平均 AVL 树 一 样 图 12-12 将 伍 插 入 到 图 12-9 中 
深 , 从 而 查找 时 间 一 般 接 近 最 优 。 红 黑 树 的 优点 是 执行 插入 所 需要 的 开销 相对 较 低 , 另外 就 是 实 
践 中 发 生 的 旋转 相对 较 少 。 

红 黑 树 的 具体 实现 是 很 复杂 的 , 这 不 仅 因为 有 大 量 可 能 的 旋转 , 而且 还 因为 一 些 子 树 可 能 是 
空 的 (如 10 的 右 子 树 ), 以 及 处 理 根 的 特殊 的 情况 (尤其 是 根 没有 父亲 )。 因 此 , 我 们 使 用 两 个 标 
记 节 点 : 一 个 是 根 , 一 个 是 nullNode, 它 的 作用 像 在 伸展 树 中 那样 指示 一 个 null 引用 。 根 标记 将 
存储 关键 字 - co 和 一 个 指向 真正 的 根 的 右 链 。 为 此 , 查找 和 输出 过 程 均 需要 调整 。 递 归 的 例 程 
都 很 巧妙 。 图 12-13 指出 如 何 重新 编写 中 序 遍 历 。 





** 

* Print the tree contents in sorted order. 
"i 
public void printTree( ) 

( 


if( isEmpty( ) ) 

System.out.println( "Empty tree" ); 
else 

printTree( header.right ); 


CON DUA WKH 


} 
*c* 
* Internal method to print a subtree in sorted order. 
* (param t the node that roots the subtree. 
ui 
private void printTree( RedBlackNode<AnyType> t ) 
{ 
if( t != nullNode ) 
{ 


printTree( t.left ); 
System.out.println( t.element ); 
printTree( t.right ); 

) 





) 


E 12-13 树 的 中 序 遍 历 以 及 两 个 警戒 标记 


图 12-14 显示 RedBlackTree 架构 (省 去 了 其 中 的 一 些 成 员 方法 ) 以 及 构造 方法 。 接 着 , 图 
12-15 显 示 执 行 一 次 单 旋 转 的 例 程 。 因 为 所 得 到 的 树 必 须要 附 接 到 一 个 父 节 点 上 ,所 以 rotate 把 
父 节点 作为 一 个 参数 。 我 们 把 item 作为 一 个 参数 传递 而 不 是 在 沿 树 下 行 时 记录 旋转 的 类 型 。 由 
于 期 望 在 插入 过 程 中 进行 很 少 的 旋转 , 因此 使 用 这 种 方式 实际 上 不 仅 更 简单 , 而且 还 更 快 。 
rotate 直接 返回 执行 一 次 适当 的 单 旋转 的 结果 。 
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ublic class RedBlackTree<AnyType extends Comparable<? super AnyType>> 


f** 
* Construct the tree. 
" 


public RedBlackTree( ) 


{ 
nullNode = new RedBlackNode<AnyType>( null ); 


nullNode. left = nullNode.right = nullNode; 
header = new RedBlackNode<AnyType>( null ); 
header.left = header.right = nullNode; 

) 


private static class RedBlackNode<AnyType> 
( 
// Constructors 
RedBlackNode( AnyType theElement ) 
( this( theElement, null, null ); } 


RedBlackNode( AnyType theElement, RedBlackNode<AnyType> lt, RedBlackNode<AnyType> rt ) 
( element = theElement; left = 1t; right = rt; color = RedBlackTree.BLACK; ) 


AnyType element; // The data in the node 
RedBlackNode«AnyType» left; // Left child 
RedBlackNode<AnyType> right; // Right child 

int color; // Color 


} 


private RedBlackNode<AnyType> header; 
private RedBlackNode<AnyType> nul }Node; 


private static final int BLACK = 1; // BLACK must be 1 
private static final int RED = 0; 





12-14 类 架构 和 初始 化 例 程 


[** 

* Internal routine that performs a single or double rotation. 

* Because the result is attached to the parent, there are four cases. 

* Called by handleReorient. 

* @param item the item in handleReorient. 

* @param parent the parent of the root of the rotated subtree. 

— the root of the rotated subtree. 

* 
private RedBlackNode«AnyType» rotate( AnyType item, RedBlackNode<AnyType> parent ) 
{ 


1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 


if( compare( item, parent ) < 0 ) 
return parent .left = compare( item, parent.left ) < 0 ? 


— 
bo 





12-15 rotate 方法 
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rotateWithLeftChild( parent.left ) : // LL 
rotateWithRightChild( parent.left ) ; // LR 


else 
return parent.right = compare( item, parent.right ) < 0 ? 
rotateWithLeftChild( parent.right ) : // RL 
rotateWithRightChild( parent.right ); // RR 


/** 
* Compare item and t.element, using compareTo, with 
* caveat that if t is header, then item is always larger. 
* This routine is called if it is possible that t ts header, 
* If it is not possible for t to be header, use compareTo directly. 
"E 
private final int compare( AnyType item, RedBlackNode«AnyType» t ) 
{ 
if( t == header ) 
return 1; 
else 
return item.compareTo( t.element ); 





12-15 (5) 


最 后 , 我 们 在 图 12-16 中 给 出 插入 过 程 。 例 程 handleReorient 当 我 们 遇 到 带 有 两 个 红 儿 子 的 
节点 时 被 调用 , 在 我 们 插入 一 片 树叶 时 它 也 被 调用 。 最 为 复杂 的 部 分 是 , 一 个 双 旋 转 实 际 上 是 两 
个 单 旋转 ,而 且 只 有 当 通 向 X 的 分 支 (在 insert 方法 中 由 current 表示 ) 取 相反 方向 时 才 进 行 。 
正如 我 们 在 较 早 的 讨论 中 提 到 的 , 当 沿 树 向 下 进行 的 时 候 ，insert 必须 记录 父亲 、 祖父 和 曾祖 。 
由 于 这 些 量 要 由 handleReorient 共享 , 因此 让 它们 是 类 成 员 。 注 意 , 在 一 次 旋转 之 后 , 存储 在 祖 
父 和 曾祖 节点 中 的 值 将 不 再 正确 。 不 过 , 肯定 到 下 一 次 再 需要 它们 的 时 候 它 们 将 被 修复 。 


// Used in insert routine and its helpers 
private RedBlackNode<AnyType> current; 
private RedBlackNode«AnyType» parent; 
private RedBlackNode«AnyType» grand; 
private RedBlackNode<AnyType> great; 
/[** 
* Internal routine that is called during an insertion 
* if a node has two red children. Performs flip and rotations. 
* (param item the item being inserted. 
*/ 
private void handleReorient( AnyType item ) 
{ 


— 
OD PN WN ~ 


上 一 
— 


— — — 
AU N 


// Do the: color flip 
current.color = RED; 
current. left.color = BLACK; 
current.right.color = BLACK; 


- bs — 
NDAU 





图 12-16 插入 过 程 
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if( parent.color == RED ) // Have to rotate 
{ 


grand.color = RED; 
if( ( compare( item, grand ) < 0 ) !* 
( compare( ítem, parent ) < 0) ) 
parent = rotate( item, grand ); // Start dbl rotate 
current » rotate( item, great ); 
current.color = BLACK; 


} 
header.right.color = BLACK; // Make root black 
) 
/[** 
* Insert into the tree. 
* @param item the item to insert. 
*/ 
public void insert( AnyType item ) 
{ 
current = parent = grand = header; 
nullNode.element = item; 


while( compare( item, current ) != 0 ) 
{ 
great = grand; grand = parent; parent = current; 
current = compare( item, current ) < 0 ? current.left : current.right; 


// Check if two red children; fix if so 
if( current.left.color == RED && current.right.color == RED ) 
handleReorient( item ); 


// Insertion fails if already present 
if( current != nullNode ) 
return; 
current = new RedBlackNode<AnyType>( item, nullNode, nullNode ); 


// Attach to parent 
if( compare( item, parent ) « 0 ) 
parent.left = current; 
else 
parent.right = current; 
handleReorient( item ); 





图 12-16 (£X) 


12.2.3 自 顶 向 下 的 删除 
红 黑 树 中 的 删除 也 可 以 自 项 向 下 进行 。 每 一 件 工作 都 归结 于 能 够 删除 树叶 。 这 是 因为 ,要 


删除 一 个 带 有 两 个 儿子 的 节点 , 用 右 子 树 上 的 最 小 节点 代替 它 ; 该 节点 必然 最 多 有 一 个 儿子 ， 然 
后 将 该 节点 删除 。 只 有 一 个 右 儿 子 的 节点 可 以 用 相同 的 方式 删除 , 而 只 有 一 个 左 儿 子 的 节点 通 
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过 用 其 左 子 树 上 最 大 节点 替换 而 被 删除 ,然后 再 将 该 节点 删除 。 注 意 , 对 于 红 黑 树 , 我 们 不 要 使 
用 绕 过 带 有 一 个 儿子 的 节点 的 情形 的 方法 , 因为 这 可 能 在 树 的 中 部 连接 两 个 红色 节点 , 增加 红 黑 
条 件 实 现 的 困难 。 

当然 , 红色 树叶 的 删除 很 简单 。 然 而 , 如 果 一 片 树 叶 是 黑 的 , 那么 删除 操作 会 复杂 得 多 , 因 
为 黑色 节点 的 删除 将 破坏 条 件 4。 解 决 方法 是 保证 从 上 到 下 删除 期 间 树叶 是 红 的 。 

在 整个 讨论 中 , 令 X 为 当前 节点 , 工 是 它 的 兄弟 , 而 P 是 它们 的 父亲 。 开 始 时 我 们 把 树 的 
根 涂 成 红色 。 当 沿 树 向 下 遍历 时 , 我 们 设法 保证 X 是 红色 的 。 当 到 达 一 个 新 的 节点 时 , 我 们 要 
确信 P 是 红 的 (归纳 地 , 我 们 试图 继续 保持 这 种 不 变性 ) 并 且 X 和 人 是 黑 的 (因为 不 能 有 两 个 相 
连 的 红色 节点 )。 这 存在 两 种 主要 的 情形 。 

首先 , RX 有 两 个 黑 儿 子 。 此 时 有 三 种 子 情况 ,如 图 12-17 所 示 。 如 果 信也 有 两 个 黑 儿 子 ， 
那么 可 以 翻转 X, TAP 的 颜色 来 保持 这 种 不 变性 。 和 否则 ，T 的 儿子 之 一 是 红 的 。 根 据 这 个 儿 
子 节点 是 哪 一 个 2 , 我 们 可 以 应 用 图 12-17 所 示 的 第 二 和 第 三 种 情形 表示 的 旋转 。 特 别 要 注意 ， 
这 种 情形 对 于 树叶 将 是 适用 的 , 因为 nullNode 被 认为 是 黑 的 。 





图 12-17 当 X 是 一 个 左 儿 子 并 有 两 个 黑 儿 子 时 的 三 种 情形 


EK, X 的 儿子 之 一 是 红 的 。 在 这 种 情形 下 , 我 们 落 到 下 一 层 上 , 得 到 新 的 X、T FUP. in 
ARE, X 落 在 红 儿 子 上 , 则 我 们 可 以 继续 向 前 进行 。 如 果 不 是 这 样 , 那么 我 们 知道 THES 
的 , 而 X AP RAMAN. RTA LEH THAP, 使 得 X 的 新 父亲 是 红 的 ; 当然 X 及 其 祖父 将 是 
黑 的 。 此 时 我 们 可 以 回 到 第 一 种 主 情况 。 


12.3 确定 性 跳跃 表 


用 于 红 黑 树 的 一 些 想法 可 以 应 用 到 跳 聊 表 以 保证 对 数 最 坏 情形 操作 。 在 这 一 节 , 我 们 描述 
所 得 到 数据 结构 的 最 简单 的 实现 方法 ，1-2-3 确定 性 跳跃 表 (1-2-3 deterministic skip list), 

回忆 第 10 章 , 跳 幅 表 中 的 节点 随机 指定 了 高 度 。 高 度 为 h 的 节点 包含 个 前 向 链 pi, pps 
p; 链接 到 高 度 为 i 或 更 大 的 下 一 个 节点 。 一 个 节点 具有 高 度 h 的 概率 为 0.54( 为 了 实现 时 / 空 交 
换 , 0.5 可 以 用 0 和 1.0 之 间 的 任何 数 来 代替 )。 因 此 , 我 们 期 望 只 处 理 一 些 前 向 链 直 到 下 降 一 


O 如 果 两 个 儿子 都 是 红 的 ,那么 我 们 可 以 应 用 两 种 旋转 中 的 任 一 种 。 通 常 ,在 X 是 一 个 右 儿 子 的 情形 下 存在 对 称 的 
旋转 。 
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层 ; 由 于 有 大 约 log N 层 , 因此 我 们 得 到 每 次 操作 花费 O(log N) 的 期 望 运行 时 间 。 

为 使 这 个 界 成 为 最 坏 情形 的 界 , 我 们 需要 保证 只 有 常数 个 前 向 链 需 要 考查 直到 下 降 到 更 低 
的 一 层 。 为 此 , 我 们 添加 一 个 平衡 条 件 。 首 先 需 要 两 个 定义 。 

定义 12.1 两 个 元 素 称 为 是 链接 (linked) 的 , 如 果 至 少 存在 一 个 链 从 一 个 元 素 指向 男 一 个 元 
X. 

定义 12.2 ”两 个 在 高 度 h 上 链接 的 元 素 间 的 间隙 容量 (gap size) 等 于 它们 之 间 高 度 为 h 一 1 的 元 
素 的 个 数 。 

1-2-3 确定 性 跳跃 表 满足 以 下 性 质 : 每 一 个 间隙 ( 除 在 头 和 尾 之 间 可 能 的 零 间 中外) 的 容量 为 
1、2 或 3。 例 如 , 图 12-18 显示 一 个 1-2-3 确定 性 跳 嫉 表 。 该 表 有 两 个 容量 为 3 的 间隙 : 第 一 个 
是 在 25 和 45 之 间 有 高 度 为 1 的 三 个 元 素 , 第 二 个 是 在 表 头 和 尾 之 间 有 高 度 为 2 的 三 个 元 素 。 尾 
节点 包含 co, 它 的 出 现 简化 了 算法 并 使 得 定义 表 终 端 间 辽 的 概念 更 容易 。 





12-18 一 个 1-2-3 Wig TEPERK 


显然 , 沿 任 一 层 行进 仅仅 通过 常数 个 链 就 可 以 下 降 到 低 一 层 。 因 此 , 在 最 坏 的 情形 下 查找 的 
时 间 是 O(log N)。 

为 了 执行 插入 , 我 们 必须 保证 当 一 个 高 度 为 h 的 新 节点 加 入 进来 时 不 会 产生 具有 4 个 高 度 
Ah 的 节点 的 间隙。 实际 上 这 很 简单 , 我 们 采用 类 似 于 在 红 黑 树 中 所 做 的 自 项 向 下 的 策略 即 可 。 

设 我 们 在 第 LAL, 并 正 要 降 到 下 一 层 去 。 如 果 要 降 到 的 间隙 容量 是 3, 那么 我 们 提高 该 间 
隙 的 中 间 项 使 其 高 度 为 L, 从 而 形成 两 个 容量 为 1 的 间隙 。 由 于 这 使 得 朝向 插 人 的 道路 上 消除 了 
容量 为 3 的 间隙 , 因此 插入 是 安全 的 。 

例如 , 图 12-19 显示 项 27 到 图 12-18 HM EER PHARE, EATA, 我 们 将 要 
从 第 3 层 降 到 第 2 层 。 由 于 下 降 将 落 人 到 容量 为 3 的 间隙 ,因此 这 里 的 中 间 项 (25) 将 上 升 到 高 度 
3 并 在 表 中 被 拼接 好 。 在 第 2 层 的 查找 将 我 们 带 到 25, 我 们 需要 在 此 处 下 降 到 第 1 层 。 在 这 里 又 
见 到 容量 为 3 的 间隙 , 因此 把 35 提升 到 高 度 2, 结 果 如 图 12-20 所 示 。 当 插入 27 的 时 候 , 将 它 拼 
接 到 表 中 ,如 图 2-21 所 示 。 





图 12-21 插入 27: 最 后 , 将 27 作为 高 度 为 1 的 节点 插入 
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删除 的 困难 出 现在 间 陈 容量 为 1 的 情况 。 当 我 们 看 到 将 要 下 降 到 一 个 容量 为 1 的 间隙 时 , 我 
们 把 这 个 间隙 放大 : 或 者 是 通过 从 相 邻 间隙 (如 果 容 量 不 为 1) 借 来 的 方式 , 或 者 通过 将 该 间 院 与 
邻 间 隙 分 开 的 节点 的 高 度 降低 的 方式 。 由 于 这 两 个 都 是 容量 为 1 的 间 际 , 因此 结果 变 成 容量 为 3 
的 间隙 。 由 于 有 几 种 情形 要 处 理 , 因此 程序 比 我 们 的 描述 稍微 复杂 一 些 。 

整个 过 程 是 如 何 实现 的 呢 ? 在 描述 了 所 有 的 细节 之 后 , 我 们 将 看 到 程序 代码 的 量 实际 上 是 
相当 小 的 。 

第 一 个 重要 的 细节 是 ， 当 我 们 将 一 个 高 六 的 节点 提升 到 高 户 + 1 的 时 候 , 我 们 不 能 花费 时 间 
O(h) 用 来 将 个 链 拷 贝 到 一 个 新 数组 。 否 则 , 插 人 的 时 间 界 就 要 成 为 O(log N) 了 。 一 种 合理 
的 方法 是 用 一 个 链表 表示 高 度 为 h 的 节点 中 的 个 前 向 链 。 由 于 我 们 是 沿 着 各 层 向 下 行进 ， 
此 一 个 节点 的 链表 是 以 第 h 层 前 向 链 开始 并 以 第 1 层 前 向 链 结束 。 

第 二 是 优化 更 复杂 而 且 可 能 占用 一 些 空间 。 我 们 不 是 把 节点 作为 一 项 和 前 向 链 的 链表 来 存 
储 , 而 是 存储 前 向 链 和 前 向 项 对 的 链表 。 理 解 其 含义 的 最 容易 的 方法 是 参考 图 12-22, CRA 
12-21 的 另 一 种 表示 方法 。 我 们 将 使 用 术语 抽象 (abstract) 或 运 辑 (logical) 表 示 来 描述 图 12-21 并 
把 图 12-22 当做 是 (实际 的 ) 实 现 方法 。 

首先 注意 , 除了 尾 节 点 被 删除 外 , 抽象 表示 和 实际 实现 二 者 的 地 平 线 (skyline 一 一 即 我 们 从 
左 到 右 扫描 的 高 度 ) 是 一 样 的 。 在 我 们 的 实现 中 , 每 一 个 节点 都 留 有 使 我 们 下 降 一 层 的 链 , 指向 
同 层 上 的 下 一 个 节点 的 链 以 及 逻辑 上 存储 在 下 一 项 中 的 项 (如 原始 抽象 描述 所 述 )。 





12-22 图 12-21 中 1-2-3 确定 性 跳 九 表 的 链表 实现 


注意 ， 有些 项 的 出 现 是 多 于 一 次 的 。 例 如 , 25 出 现在 三 个 地 方 。 事 实 上 ,如果 一 个 节点 在 抽 
象 表示 中 的 高 度 为 六, 那么 它 的 项 在 实际 实现 中 就 会 出 现在 六 个 地 方 。 有 一 些 重要 的 结论 和 人 惊 
人 的 结果 我 们 将 在 给 出 实现 方法 后 进行 解释 。 

基本 节点 由 一 个 项 和 两 个 链 组 成 。 为 了 使 编程 更 快 更 简单 , 我 们 使 用 了 尾 节 点 ; 如 果 不 能 够 
或 不 希望 赋值 c, 那么 就 必须 使 用 其 他 技巧 。 我 们 对 头 节点 和 底层 节点 都 有 一 个 标记 以 代替 
null 链 。SkipNode 类 和 DSL 构造 方法 如 图 12-23 所 示 。 


public class DSL«AnyType extends Comparable«? super AnyType>> 
{ 


a 


* Construct the DSL. 
* @param inf the largest Comparable. 


wf 
public DSL( AnyType inf ) 


infinity = inf; 
bottom = new SkipNode<AnyType>( null ); 





12-23 MERRE: SkipNode 类 和 DSL 初始 化 
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} 


bottom.right = bottom.down = bottom; 

tail = new SkipNode<AnyType>( infinity ); 

tail.right = tail; 

header = new SkipNode<AnyType>( infinity, tail, bottom ); 


private static class SkipNode<AnyType> 


{ 


} 


// Constructors 
SkipNode( AnyType theElement ) 
( this( theElement, nul], null ); ) 


SkipNode( AnyType theElement, SkipNode<AnyType> rt, SkipNode<AnyType> dt ) 


( element = theElement; right = rt; down = dt; } 


AnyType element; // The data in the node 
SkipNode<AnyType> right; // Right link 
SkipNode<AnyType> down; // Down link 


private AnyType infinity; 


private SkipNode<AnyType> header; 
private SkipNode<AnyType> bottom = null; 
private SkipNode<AnyType> tail = null; 





1223 ( 续 ) 


查找 函数 与 随机 化 跳 唉 表 的 查找 函数 相同 。 图 12-24 指出 , 如 果 我 们 得 不 到 匹配 的 项 , 那么 
或 者 向 下 进行 , 或 者 向 右 进行 , 这 依赖 于 比较 的 结果 。 如 图 12-25 所 示 , 插入 操作 由 于 标记 的 引 
人 而 大 大 地 得 到 简化 。 利 用 某 些 烦琐 的 链 跟 踪 ,我 们 可 以 看 到 ,如 果 对 每 一 个 链 是 否 是 null 进行 
测试 , 那么 我 们 就 会 很 轻易 地 将 程序 代码 扩大 三 倍 。 


Wo 06 - OS VA A WS Nam 


** 

* Find an item in the DSL. 

* (param x the item to search for. 
* (return the true if not found. 
*/ 
public boolean contains( AnyType x ) 


{ 
SkipNode<AnyType> current = header; 


bottom.element = x; 
for( ;3 ) 
{ 


int compareResult = x.compareTo( current.element ); 





图 12-24 MEHRERE: contains 例 程 
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if( compareResult < 0 ) 
current = current.down; 
else if( compareResult » 0 ) 


current = current.right; 
else 
return current {= bottom; 





图 12-24 (1X) 


** 
* Insert into the DSL. 
* @param x the item to insert. 
ai 
public void insert( AnyType x ) 


{ 
SkipNode<AnyType> current = header; 


bottom.element = x; 
while( current != bottom ) 
( 
while( current.element.compareTo( x ) < 0 ) 
current = current.right; 


G 0) OQ X AWN 


— 
— 


— k — — 
WM 4 Co ho 


// Vf gap size is 3 or at bottom level and 


// must insert, then promote middle element 
if( current.down.right.right.element.compareTo( current.element ) < 0 ) 


current.right = new SkipNode<AnyType>( current.element, current.right, 
current.down.right.right ); 
current.element - current.down.right.element; 
) 
else 
current = current.down; 


} 


// Raise height of DSL if necessary 
if( header.right != tail ) 
header = new SkipNode<AnyType>( infinity, tail, header ); 





12-25 HERRER: HATE 


图 12-25 指出 , 确定 性 跳跃 表 插入 过 程 的 程序 多 多 少 少 要 短 一 些 , 考虑 的 情况 比 红 黑 树 少 的 
多 。 我 们 所 付出 的 代价 似乎 是 空间 : 在 最 坏 情况 下 我 们 有 2N 个 节点 , 每 个 节点 包含 两 个 链 和 一 
项 。 对 于 红 黑 树 , 我 们 有 N 个 节点 , 每 个 节点 包含 两 个 链 、 一 项 以 及 一 个 颜色 位 (color bit), A 
此 , 我 们 可 能 要 用 到 两 倍 多 的 空间 。 可 是 , 事情 并 没有 糟 到 这 一 步 。 首 先 , 经 验 指出 , 确定 性 跳 
跃 表 平均 使 用 大 约 1.57N 个 节点 。 其 次 , 在 某 些 情 况 下 ,确定 性 跳 嫉 表 实 际 使 用 的 空间 少 于 红 
黑 树 。 
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这 里 有 一 个 适用 于 C 或 C++ 的 实际 例子 。 在 32 位 机 器 上 , 链 和 整数 是 4 个 字 节 。 对 于 某 些 
系统 , 包括 某 些 版 本 的 UNIX, 内 存 是 按 块 (chunk) 来 配置 的 , 它们 通常 是 2, 但 存储 管理 程 
序 使 用 4 个 字 节 的 块 。 于 是 , 对 于 12 个 字 节 的 请 求 将 得 到 一 个 16 字 节 块 : 12 个 字 节 用 户 使 用 而 
4 个 字 节 作为 系统 开销 。 但 是 , 对 于 13 个 字 节 的 需求 则 必须 提供 一 个 32 字 节 块 。 因 此 , 在 这 种 
情况 下 , 确定 性 跳跃 表 每 个 节点 使 用 16 个 字 节 , 而 平均 有 1.57N 个 节点 ,因此 总 数 一 般 约 为 
25N 个 字 节 。 可 是 , 红 黑 树 却 使 用 32N 个 字 节 ! 这 说 明 在 某 些 机 器 上 一 个 附加 位 (bit) 是 非常 昂 
贵 的 。 这 是 自 组 织 结构 的 吸引 力 之 一 。 





图 12-26 12-22 的 水 平 数组 实现 


确定 性 跳跃 表 的 性 能 似乎 比 红 黑 树 要 强 。 当 寻找 插入 时 间 的 改进 时 ,下 面 这 行 代码 包 含有 
逻辑 测试 : 

if(current . down . right . right . element . compareTo (current . element) < 0 ) 
这 是 很 好 的 号， 如 果 我 们 把 一 些 项 存储 在 最 多 三 个 元 素 的 一 个 数组 中 , 那么 对 于 第 三 项 的 访问 
可 以 直接 进行 , 而 不 用 再 通过 两 个 right 链 。 图 12-26 表示 的 是 所 得 到 的 结构 , 具有 讽刺 意味 的 
E, 这 个 结构 很 像 第 4 章 讨论 的 B 树 。 我 们 称 之 为 1-2-3 确定 性 跳跃 表 的 水 平 数 组 实现 
(horizontal array implementation)。 正 如 存在 链表 形式 和 水 平 数 组 形式 的 高 阶 B 树 一 样 , 我 们 也 可 
以 有 这 两 种 形式 的 高 阶 确定 性 跳跃 表 。 哪 种 方法 最 好 还 有 竺 研究 , 可 能 紧密 依赖 于 特定 的 系统 
和 应 用 。 


12.4 AA 树 


因为 大 量 可 能 的 旋转 , 红 黑 树 的 编程 相当 复杂 , 特别 是 删除 操作 。 虽 在 一 定 程度 上 确定 性 跳 
路 表 的 编程 代码 要 少 一 些 , 但 仍然 是 相当 复杂 的 , 这 由 所 需 的 三 个 警戒 标记 可 以 看 出 。 当 然 , 确 
定性 跳 唉 表 中 的 删除 操作 也 是 一 项 复杂 的 工作 。 在 这 一 节 , 我 们 描述 二 叉 B Bi (binary B-tree) — 
种 简单 却 颇具 竞争 力 的 实现 方法 , 这 种 树 叫做 BB 树 。BB 树 是 带 有 一 个 附加 条 件 的 红 黑 树 : 一 个 
节点 最 多 可 以 有 一 个 红 儿 子 。 为 使 编程 容易 , 我 们 采纳 如 下 一 些 法 则 。 

1. 首先 ,加 入 只 有 右 儿 子 可 以 是 红色 的 条 件 , 这 就 消除 了 约 一 半 可 能 的 重新 构建 的 情形 。 它 
也 消除 在 删除 算法 中 一 个 恼人 的 情形 ; 如 果 一 个 内 部 节点 只 有 一 个 儿子 , 那么 这 个 儿子 一 定 是 右 
儿子 ( 它 刚好 是 红色 的 ), 因为 黑色 左 儿 子 将 会 违反 红 黑 树 的 条 件 4。 因 此 , 我 们 总 可 以 用 一 个 内 
部 节点 的 右 子 树 中 的 最 小 节点 代替 该 内 部 节点 。 

2. 递归 地 编写 这 些 过 程 。 

3. 我 们 不 是 把 一 个 颜色 位 (bit) 和 每 个 节点 一 起 存储 ,而 是 把 信息 存在 一 个 小 的 整数 (例如 8 
比特 ) 中 ,这 个 信息 就 是 节点 的 层次 (level)。 节 点 的 层次 如 下 : 


O ”事实 上 ,更 "明显 "的 测试 if(current . down. right . right . right.element . compareTo (current . element) = = 
0) 对 某 些 系 统 多 花费 20% 的 时 间 1 
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。 若 该 节点 是 树叶 , 则 它 的 层次 是 1。 

。 若 该 节点 是 红 的 , 则 它 的 层次 是 它 的 父 节 点 的 层次 。 

。 若 该 节点 是 黑 的 , 则 它 的 层次 比 它 的 父 节 点 的 层次 少 1。 

如 此 得 到 的 结果 是 一 棵 AA 树 。 图 12-27 显示 用 于 AA 树 的 类 型 声明 。 我 们 再 一 次 使 用 标记 
来 代表 null。 


public class AATree<AnyType extends Comparable<? super AnyType>> 


fre 
* Construct the tree. 
* 


public AATree( ) 
{ 


nullNode = new AANode<AnyType>( null, null, null ); 
nullNode.left = nullNode.right = nullNode; 
nullNode.level = 0; 

root = nullNode; 


private static class AANode<AnyType> 
{ 
// Constructor 
AANode( AnyType theElement, AANode<AnyType> It, AANode<AnyType> rt ) 
{ element = theElement; left = 1t; right = rt; level = 1; } 


AnyType element; // The data in the node 
AANode<AnyType> left; // Left child 
AANode<AnyType> right; // Right child 
int level; // Level 

} 


private AANode<AnyType> root; 
private AANode<AnyType> nullNode; 





图 12-27 AA: 节点 类 和 AA 树 初始 化 


如 果 将 AA 结构 的 要 求 从 颜色 转换 成 层次 , 那么 我 们 看 到 , 左 儿子 必然 比 它 的 父 节 点 恰好 低 
一 个 层次 , 而 右 儿 子 可 能 比 父 节点 低 0 或 1 个 层次 (但 不 会 更 多 )。 

水 平 链接 (horizontal link) 是 一 个 节点 与 相等 层次 的 儿子 之 间 的 连接 ; 这 种 结构 需求 使 得 水 平 
链接 是 向 右 的 连接 , 并 且 可 以 消除 两 个 连续 的 水 平 链接 。 图 12-28 显示 一 棵 AA 树 的 示例 。 使 用 
通常 的 算法 完成 查找 。 一 个 新 项 的 插入 总 是 在 底层 进行 。 不 过 , 有 两 个 问题 产生 : 2 的 插入 将 产 
生 一 个 左 水 平 链接 , 而 45 的 插 和 人 将 产生 两 个 连续 的 右 水 平 链接 。 


0 "eli 





图 12-28 插入 10,85,15,70.20,60,30,50,65,80,90,40, 
5,55,35 得 到 的 一 棵 AA 树 
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在 这 两 种 情况 下 一 次 单 旋转 都 可 以 使 问题 得 到 解决 : 通过 一 些 右 旋转 消除 左 水 平 链接 ,而 通 
过 一 次 左旋 转 消除 连续 的 右 水 平 链 接 。 这 些 过 程 分 别 叫做 skew 和 split. Al 12-29 是 这 些 原 语 的 
程序 。 一 次 skew 除去 一 个 左 水 平 链接 , 但 可 能 会 创建 连续 的 右 水 平 链接 ; 因此 我 们 首先 执行 
skew, 然后 再 split。 在 一 次 split 之 后 , PATA R 的 层次 增加 。 由 于 新 建 一 个 左 水 平 节点 或 
连续 的 右 水 平 节点 , 因而 可 能 引起 X 的 原来 父 节点 的 一 些 问题 , 这 两 个 问题 都 可 以 通过 上 滤 skew/ 
split 的 方法 解决 。 如 果 使 用 递归 算法 , 那么 这 可 以 自动 地 完成 。 图 12-30 描述 了 这 两 个 方法 。 


| cias 
* Skew primitive for AA-trees. 
* @param t the node that roots the tree. 
* @return the new root after the rotation. 
* 


/ 
private AANode<AnyType> skew( AANode<AnyType> t ) 
( 
if( t.left.level == t.level ) 
t = rotateWithLeftChild( t ); 
return t; 


Com DAU — 


** 
* Split primitive for AA-trees. 
* @param t the node that roots the tree. 
* (return the new root after the rotation. 
zi 
private AANode<AnyType> split( AANode<AnyType> t ) 
{ 
if( t.right.right.level == t.level ) 
[ 
t = rotateWithRightChild( t ); 
t.level++; 
} 


return t; 





图 12-29 AAW: skew 方法 和 split 方法 


YEP) ( 右 旋转 ) ¥}—-(P) 
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图 12-30 skew 和 split. E R 的 层次 在 一 次 split 中 增加 


将 45 插 人 到 图 12-28 中 的 AA 树 的 动作 在 图 12-31 到 图 12-35 中 表示 。 此 时 的 插入 过 程 只 比 
非 平衡 实现 方法 多 两 行 , 如 图 12-36 所 示 。 


Q0 





图 12-31 在 将 45 HARD AB PL 
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图 12-33 1E 50 处 skew 之 后 


| 40 60 85 (5) 
SFO 129 "a" @ Od 20 





12-34 1E 40 4b split Zi 12-35 在 70 进行 skew 和 在 30 进行 split 后 
最 后 得 到 的 树 


** 

* Internal method to insert into a subtree. 

* @param x the item to insert. 

* @param t the node that roots the subtree. 

* @return the new root of the subtree. 

*/ 
private AANode<AnyType> insert{ AnyType x, AANode<AnyType> t ) 
{ 


Wo 00 74 HU A WH 


if( t == nullNode ) 
return new AANode<AnyType>( x, nullNode, nullNode ); 


int compareResult = x.compareTo( t.element ); 


if( compareResult « 0 ) 

t.left » insert( x, t.left ); 
else if( compareResult » 0 ) 

t.right = insert( x, t.right ); 
else 

return t; 


t = skew( t ); 
t = split( t ); 
return t; 





Kd 12-36 AA 树 : 插入 方法 


当然 , 删除 操作 是 更 复杂 的 , 不 过 , 由 于 我 们 除去 了 许多 特殊 情形 , 程序 代码 实际 上 是 相当 
合理 的 。 首 先 , 我 们 记得 , 如 果 一 个 节点 不 是 树叶 , 那么 它 必 然 有 一 个 右 儿 子 , 这 意味 着 ， 当 删 
除 一 个 节点 时 , 我 们 总 可 以 用 其 右 子 树 上 最 小 的 儿子 代替 这 个 节点 , 这 保证 它 是 在 第 一 层 上 。 

为 了 有 助 于 解决 问题 , 我 们 使 用 了 两 个 类 变量 deleteNode 和 lastNode。 因 为 remove 是 递归 
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方法 , 所 以 它们 是 一 些 实例 域 。 当 我 们 遍历 一 个 右 链 时 , 调整 deleteNode; 因为 我 们 递归 地 调用 
remove 直到 到 达 底 部 为 止 ( 在 沿 树 下 行 的 过 程 中 我 们 不 对 是 否 相 等 进行 测试 ), 这 保证 如 果 要 删 
除 的 项 在 树 上 , 那么 deleteNode 将 引用 包含 它 的 节点 。lastNode 引用 查找 终止 处 的 树叶 。 因 为 
我 们 只 有 到 达 底 部 才 停止 , 所 以 如 果 该 项 在 树 上 , 那么 lastNode 将 引用 层次 为 1 的 包含 替换 值 
的 节点 , 且 必 须 从 该 树 删除 掉 。 

当 到 达 树 的 底部 时 , 我 们 执行 第 二 步 , 将 第 1 层 节点 的 值 拷贝 到 内 部 节点 上 然后 绕 过 这 个 层 
次 为 1 的 节点 。 

为 了 查看 非 叶 节点 的 层次 是 否 被 一 次 递归 调用 所 破坏 ， 需 要 检查 这 些 非 叶 节 点 。 令 OT ADM 
前 节点 ,如 果 删 除 将 工 的 一 个 儿子 的 层次 (实际 上 只 有 一 个 由 递归 调用 所 输入 的 儿子 可 能 受 影 
响 , 但 为 简单 起 见 我 们 不 跟踪 它 ) 降 低 到 比 T 的 层次 低 2, 那么 工 的 层次 也 需要 降低 。 此 外 ， 如 
果 工 有 一 个 右 红 儿子 , 那么 了 的 右 儿 子 也 必须 将 它 的 层次 降低 。 此 时 , 我 们 可 能 在 同一 层次 上 
有 6 个 节点 : T, 工 的 右 红 儿子 R，R 的 两 个 儿子 , 以 及 这 些 儿 子 的 右 红 儿子 。 图 12-37 表达 了 
最 简单 的 可 能 的 情况 。 


(2—— — 
0! FD $)-0) 


12-37 ?41 被 删除 时 , 引入 水 平 左 链接 , 所 有 节点 的 层次 均 变 成 1。 通 过 调用 三 次 skew 
使 得 右 指 向 的 链接 完成 。 调 用 两 次 split 删除 连续 的 水 平 链接 


在 节点 1 删除 以 后 , 节点 2 从 而 节点 5 变 成 了 层次 为 1 的 节点 。 首 先 , 我 们 必须 调整 在 节点 
5 和 3 之 间 引 和 人 的 左 水 平 链接 。 这 基本 上 需要 两 次 旋转 (一 次 是 在 节点 5 和 3 之 间 , 而 后 是 在 节 
点 5 和 4 之 间 )。 在 这 种 情况 下 不 涉及 当前 节点 T ADAH, 如果 删 除 来 自 右 边 , BATHE 
节点 可 能 忽然 之 间 就 可 能 变 成 水 平 的 了 ; 这 也 需要 一 次 类 似 的 双 旋 转 (在 工 处 开始 )。 为 了 避免 
测试 所 有 这 些 情 形 , 我 们 调用 三 次 skew。 一 旦 调用 完成 , 则 再 调用 两 次 split 就 足以 重新 安排 这 
些 水 平 的 边 。 整 个 删除 例 程 如 图 12-38 所 示 。 从 各 方面 来 看 , 这 对 编程 来 说 都 是 相对 简单 的 数据 
结构 。 


** 
* Internal method to remove from a subtree. 
* (param x the item to remove. 
* (param t the node that roots the subtree. 
* (return the new root of the subtree. 
*/ 
private AANode<AnyType> remove( AnyType x, AANode<AnyType> t ) 
{ 
if( t != nullNode ) 
{ 


I 
2 
3 
4 
5 
6 
7 
8 


// Step 1: Search down the tree and set lastNode and deletedNode 
TastNode = t; 
if( x.compareTo( t.element ) < 0 ) 

t.left = remove( x, t.left ); 





12-38 AA: 删除 过 程 


O 这 个 技巧 可 以 用 于 contains 方法 ,用 每 个 节点 的 两 路 比较 代替 在 每 个 节点 所 做 的 三 路 比较 ,外 加 在 底部 进行 的 相 
等 性 测试 。 
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else 


deletedNode = t; 
t.right » remove( x, t.right ); 


// Step 2: If at the bottom of the tree and 
// X is present, we remove it 
if( t == lastNode ) 
( 
if( deletedNode == nullNode || 
x.compareTo( deletedNode.element ) != 0 ) 
return t; // Item not found; do nothing 
deletedNode.element = t.element; 
t = t.right; 
} 


// Step 3: Otherwise, we are not at the bottom; rebalance 
else if( t.left.level < t.level - 1 |] t.right.level < t.level - 1) 
( 

if( t.right.level > --t.level ) 

t.right.level = t.level; 

t = skew( t ); 

t.right = skew( t.right ); 

t.right.right = skew( t.right.right ); 

t = split( t ); 

t.right = split( t.right ); 





Bd 12-38 (£k) 


12.5 treap 树 


最 后 一 种 二 叉 查找 树 可 能 是 最 简单 的 一 种 , 叫做 treap 树 。 它 像 跳跃 表 一 样 使 用 随机 数 并 且 
对 任意 的 输入 都 能 给 出 O(log N) 期 望 时 间 的 性 能 。 查 找 时 间 等 同 于 非 平衡 二 叉 查 找 树 (从 而 比 
平衡 查找 树 要 慢 ) ， 而 插 人 时 间 只 比 递归 非 平衡 二 叉 查 找 树 的 实现 方法 稍 慢 。 虽 然 删 除 操作 要 慢 
得 多 , 但 仍然 是 O(log N) 期 望 时 间 。 

treap 树 是 如 此 地 简单 ,以 至 我 们 不 用 画图 就 可 描述 它 。 树 中 的 每 个 节点 存储 一 项 , 一 个 左 
MAR, 以 及 一 个 优先 级 , 该 优先 级 是 建立 节点 时 随机 指定 的 。 一 个 treap 树 就 是 一 棵 二 叉 查 找 
树 , 但 其 节点 优先 级 满足 堆 序 性 质 : 任意 节点 的 优先 级 必须 至 少 和 它 父 节点 的 优先 级 一 
样 大 。 

其 每 一 项 都 有 不 同 优先 级 的 不 同 项 的 集合 只 能 由 一 棵 treap 树 表 示 。 这 很 容易 由 归纳 法 推 
F, 因为 具有 最 低 优先 级 的 节点 必然 是 根 。 因 此 , 树 是 根据 优先 级 的 N1 种 可 能 的 排列 而 不 是 根 
据 项 的 NT 种 排序 形成 的 。 节 点 的 声明 很 简单 ,只 要 求 添加 priority 域 , 如 图 12-39 所 示 。 标 记 
nullNode 的 优先 级 为 ce 。 随 机 优先 级 巾 一 个 共享 的 Random 类 的 对 象 生成 。 
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private static class TreapNode<AnyType> 
{ 


// Constructors 
TreapNode( AnyType theElement ) 
{ this( theElement, null, null ); ) 
TreapNode( AnyType theElement, TreapNode<AnyType> lt, TreapNode<AnyType> rt ) 
( element = theElement; left = It; right = rt; priority = randomObj.randomInt( ); ) 


AnyType element; // The data in the node 
TreapNode<AnyType> left; // Left child 
TreapNode<AnyType> right; // Right child 

int priority; // Priority 


private static Random random0bj = new Random( ); 





图 12-39 treap 树 的 节点 声明 


到 treap 树 的 插入 操作 也 简单 : 在 一 项 作为 树叶 加 入 之 后 , 我 们 将 它 沿 着 该 treap 树 向 上 旋转 
直到 它 的 优先 级 满足 堆 序 为 止 。 可 以 证 明 旋 转 的 期 望 次 数 小 于 2。 在 找到 要 被 删除 的 项 以 后 , 通 
过 把 它 的 优先 级 增加 到 ce 并 沿 着 低 优 先 级 诸 儿 子 的 路 径 向 下 旋转 而 可 将 其 删除 。 一 旦 它 成 为 树 
"p, 就 可 以 把 它 除 去 。 图 12-40 和 图 12-41 中 的 例 程 利用 递归 实现 这 些 方法 。 一 种 非 递归 的 实现 
方法 留 给 读者 练习 ( 见 练习 12.17)。 对 于 删除 , 注意 当 节 点 逻辑 上 是 树叶 时 , 它 仍然 有 nullNode 
作为 它 的 左 儿 子 和 右 儿 子 。 因 此 , 它 与 右 儿 子 旋转 , 在 旋转 后 , € 为 nullNode, 而 左 儿子 存储 要 
被 删除 的 项 。 因 此 我 们 将 t. left 改变 成 引用 nullNode 标记 。 还 要 注意 我 们 的 实现 是 假设 没有 重 
复元 ; 如 果 这 个 假设 不 成 立 , 那么 remove 可 能 失败 (为 什么 ?)。 


f dai 

* Internal method to insert into a subtree. 

* @param x the item to insert. 

* @param t the node that roots the subtree. 

* @return the new root of the subtree. 

* 
private TreapNode<AnyType> insert( AnyType x，TreapNode<AnyType> t ) 
{ 


O0 ^1 OV ON BW ho — 


if( t == nullNode ) 
return new TreapNode<AnyType>{ x, nullNode, nullNode ); 


int compareResult = x.compareTo( t.element ); 


if( compareResult « 0 ) 
( 
t.left = insert( x, t.left ); 
if( t.left.priority « t.priority ) 
t » rotateWithLeftChild( t ); 


) 
else if( compareResult » 0 ) 
{ 





图 12-40 treap H: 插入 例 程 
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t.right = insert( x, t.right ); 
if( t.right.priority « t.priority ) 
t = rotateWithRightChild( t ); 


) 
// Otherwise, it's a duplicate; do nothing 


return t; 





图 12-40 (£&) 


/** 

* Internal method to remove from a subtree. 

* @param x the item to remove. 

* @param t the node that roots the subtree. 

* @return the new root of the subtree. 

private TreapNode<AnyType> remove( AnyType x, TreapNode<AnyType> t ) 
{ 


Oo - DU P 一 


if( t != nullNode ) 
( 


int compareResult - x.compareTo( t.element ); 


if( compareResult « 0 ) 
t.left » remove( x, t.left ); 
else if( compareResult » 0 ) 
t.right = remove( x, t.right ); 
else 


{ 
// Match found 


if( t.left.priority < t.right.priority ) 
t = rotateWithLeftChild( t ); 

else 
t = rotateWithRightChild( t ); 


if( t != nullNode ) // Continue on down 
t = remove{ x, t ); 

else 
t.left = nullNode; // At a leaf 


) 


return t; 





图 12-41 treap Pj: 删除 过 程 
treap 树 特别 容易 实现 是 因为 我 们 绝对 不 必 担 心 调整 优先 级 域 。 平 衡 树 处 理 方法 的 困难 之 一 


是 追查 由 于 未 能 更 新 一 次 操作 过 程 中 的 信息 而 导致 的 错误 。 从 合理 的 插入 和 删除 包 的 全 部 程序 
行 来 看 , treap PE, 特别 是 非 递归 的 实现 , 似乎 才 是 不 费力 的 赢家 。 
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12.6 k-d Bi 


设 一 广告 公司 拥有 一 个 数据 库 并 需要 为 某 些 客户 生成 邮寄 标签 。 典 型 的 要 求 可 能 是 需要 散 
发 邮件 给 那些 年 龄 在 34 到 49 之 间 且 年 收入 在 100 000 美元 和 150 000 美元 之 间 的 人 们 。 这 个 问 
题 叫做 二 维 范围 查询 (two-dimensional range query)。 在 一 维 情况 下 , 该 问题 可 以 借助 于 简单 的 递 
归 算 法 通过 遍历 预先 构造 的 二 叉 查 找 树 以 OC M + logN) 平 均 时 间 解 决 。 这 里 ，M 是 由 查询 所 报 
告 的 匹配 的 个 数 。 我 们 希望 对 二 维 或 更 高 维 的 情况 得 到 类 似 的 界 。 

二 维 查 找 树 (two-dimensional search tree) 具 有 简单 性 : 在 奇数 层 上 的 分 支 按照 第 一 个 关键 字 进 
行 , 而 在 偶数 层 上 的 分 支 按照 第 二 个 关键 字 进 行 。 根 是 任意 选取 的 ,位 于 奇数 层 。 图 12-42 表示 
一 棵 2-d 树 。 向 一 棵 2-d 树 进行 的 插入 操作 是 向 一 棵 二 叉 查 找 树 插 入 操作 的 平凡 的 扩展 : 在 沿 树 
下 行 时 , 我 们 需要 保留 当前 的 层次 。 为 保持 程序 代码 简单 ,我 们 假设 基本 项 是 两 个 元 素 的 数组 。 
此 时 我 们 需要 把 层 限 制 在 0 和 1 之 间 。 图 12-43 显示 的 是 执行 一 次 插入 的 程序 。 在 本 节 使 用 递 
IH; 用 于 实践 中 的 非 递归 实现 方法 是 简单 的 , 我 们 把 它 留 作 练 习 12.23。 特 别 是 由 于 若干 项 在 一 
个 关键 字 上 可 能 相同 , 因此 困难 之 一 是 重复 元 问题 。 我 们 的 程序 允许 重复 元 , 并 且 总 是 把 它们 放 
在 右 分 支 上 ; 显然 , 如 果 有 太 多 的 重复 元 , 那么 这 可 能 就 是 一 个 问题 。 





图 12-42 2-d 树 示 例 


public void insert( AnyType [1 x ) 
( 


root = insert( x, root, 0 ); 


} 
private KdNode<AnyType> insert( AnyType [ ] x, KdNode<AnyType> t, int level ) 


if( t == null ) 


t = new KdNode<AnyType>( x ); 

else if( x[ level ].compareTo( t.data[ level ] ) < 0 ) 
t.left = insert( x, t.left, 1 - level ); 

else 
t.right = insert( x, t.right, 1 - level ); 

return t; 


} 





12-43 向 2-d 树 的 插入 


稍 加 思索 便 可 确信 ，, 一 棵 随机 构造 的 2-d 树 与 一 棵 随机 二 叉 查 找 树 具有 相同 的 结构 性 质 : 高 
度 平均 为 O(log N), 但 最 坏 情 形 则 是 OCN). 


不 像 二 又 查找 树 有 精巧 的 O(log N) 最 坏 情 形 的 变种 存在 , 没有 已 知 的 方案 能 够 保证 一 棵 平 
衡 的 2-d 树 。 问 题 在 于 , 这 样 一 种 方案 很 可 能 基于 树 的 旋转 , 而 树 旋 转 在 2-d 树 中 是 行 不 通 的 。 
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我 们 能 够 做 的 最 好 的 办 法 是 通过 重新 构造 子 树 来 定期 地 对 树 进行 平衡 , 具体 描述 可 见 练习 。 类 
似 地 , 也 不 存在 超越 明显 的 懒惰 删除 方法 的 删除 算法 。 如 果 在 需要 处 理 查询 之 前 所 有 的 项 都 已 
得 到 , 那么 我 们 就 能 够 以 O( Nlog N) 时 间 构 造 一 棵 理想 平衡 2-d 树 (perfectly balanced 2-d tree); 
这 就 是 练习 12.21c。 

有 几 种 查询 可 以 在 2-d 树 上 进行 。 可 以 要 求 精确 的 匹配 , 或 者 基于 两 个 关键 字 中 一 个 关键 
字 的 匹配 ; 后 者 称 为 部 分 匹配 查询 (partial match query)。 这 两 种 都 是 ( 正 交 ) 范 围 查询 (range 
query) 的 特殊 情形 。 

正 交 范围 查询 给 出 其 第 一 个 关键 字 在 一 个 特殊 的 值 集合 之 间 且 第 二 个 关键 字 在 另 一 个 特殊 
的 值 集合 之 间 的 所 有 的 项 。 这 正 是 我 们 在 本 节 介 绍 中 所 描述 的 问题 。 如 图 12-44 所 示 , 范围 查询 
通过 一 次 递归 的 树 遍历 容易 解 出 。 通 过 在 递归 调用 之 前 进行 测试 , 可 以 避免 对 所 有 节点 的 不 必 
要 的 访问 。 


/** 

* Print items satisfying 

* low[ 0] <= x[ 0] <= high[ 0 ] and 

* low[ 1] <= xL 1] <= high{ 1 ]. 

"f 
public void printRange( AnyType [ ] low, AnyType [ ] high ) 
{ 


Do NODA Ur A WwW hà — 


printRange( low, high, root, 0 ); 


private void printRange( AnyType [ ] low, AnyType [ ] high, 
KdNode<AnyType> t, int level ) 


i" t != null ) 


if( Tow[ 0 ].compareTo( t.data[ 0 ] ) <= 0 && 
low[ 1 ].compareTo( t.data[ 1 ] ) <= 0 && 
high[ 0 ).compareTo( t.data[ 0 ) ) >= 0 && 
high[ 1 ].compareTo{ t.data( 1] ) >= 0) 
System.out.println( "(" + t.data[ 0 ] + "," 
+ t.data[ 1] + ")" ); 


if( low[ level ].compareTo( t.data[ level ) ) <= 0) 
printRange( low, high, t.left, 1 - level ); 

if( high[ level J.compareTo( t.data[ level ] ) >= 0) 
printRange( low, high, t.right, 1 - level ); 





图 12-44 2-d BE: 范围 查找 


为 找到 特定 的 项 , 可 以 令 low 等 于 high 且 等 于 我 们 要 查找 的 项 。 为 了 执行 一 次 部 分 匹配 查 
W, 可 使 在 这 次 匹配 中 涉及 不 到 的 关键 字 的 范围 为 - 到 ce。 而 另 一 个 的 范围 则 设置 为 使 低 点 
和 高 点 等 于 匹配 中 所 涉及 到 的 关键 字 的 值 。 

在 2-d 树 中 插入 或 精确 匹配 查找 花费 的 时 间 平 均 正比 于 树 的 深度 ， 即 平均 为 O(log N), 而 
在 最 坏 情 形 下 为 O(N)。 一 次 范围 查找 的 运行 时 间 依 赖 于 如 何 将 树 平衡 , 是 否 要 求 部 分 匹配 ， 以 
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及 实际 上 有 多 少 项 被 找到 。 我 们 提出 三 个 结果 , 它们 已 经 得 到 证 明 。 

对 于 理想 平衡 树 , 一 次 范围 查询 要 报告 M 次 匹配 在 最 坏 情 形 下 可 能 花费 O(M+VN) 时 间 。 
在 任 一 节点 , 我 们 可 能 必须 要 访问 4 个 孙子 中 的 两 个 , 于 是 成 立方 程 T(N)=2T(N/4)+ 0(1)。 
然而 在 实践 中 , 这 些 查 找 趋向 于 非常 有 效 , 其 至 最 坏 情形 都 不 是 那么 差 , 因为 对 于 典型 的 N, 在 
JNA log N 之 间 的 差 被 隐藏 于 大 O 记号 中 的 更 小 的 常数 所 补偿 。 

对 于 随机 构造 的 树 , 部 分 匹配 查询 的 平均 运行 时 间 为 O(M+ N°), 其 中 a=(-3+V17)/2。 
最 近 多 少 令 人 震惊 的 结果 是 它 基 本 上 描述 了 随机 2-d 树 的 一 次 范围 查找 的 平均 运行 时 间 。 

对 于 上 & 维 的 情况 , 同样 的 算法 仍然 成 立 ; 我 们 通过 每 层 上 的 那些 关键 字 进行 循环 。 不 过 , 在 
实践 中 平衡 开始 变 得 越 来 越 差 ， 因 为 重复 元 和 非 随 机 输入 的 影响 一 般 变 得 更 为 明显 。 我 们 把 编 
程 的 细节 留 给 读者 作为 练习 而 只 叙述 解析 结果 : 对 于 理想 平衡 树 , 一 次 范围 查询 的 最 坏 情 形 运 行 
时 间 为 O(M + AN I4)。 在 随机 构造 的 上 d 树 中 , 涉及 个 关键 字 中 的 请 个 关键 字 的 部 分 匹配 
查询 花费 O(M + N°), 其 中 是 方程 

(2+ a)^(1* a)* ^ -2* 
(唯一 ) 的 正 根 。 对 各 种 p HIR, a 的 计算 留 作 练习 ; & =2 和 p — 1 的 值 反映 在 上 面 对 于 随机 2-d 
树 的 部 分 匹配 所 叙述 的 结果 中 。 

虽然 有 几 种 新 奇 的 结构 支持 范围 查找 , 但 是 玉 d 树 恐怕 是 达到 可 接受 的 运行 时 间 的 最 简单 的 

结构 。 


12.7 BOE 


我 们 考查 的 最 后 一 个 数据 结构 是 配对 堆 (pairing heap)。 对 配对 堆 的 分 析 仍 然 未 解决 , 不过， 
当 需 要 decreaseKey 操作 的 时 候 , 它 似 乎 胜 过 其 他 的 堆 结构 。 它 的 高 效率 的 最 可 能 的 原因 是 它 的 
简单 性 。 配 对 堆 被 表示 成 堆 序 树 。 图 12-45 显示 一 个 配对 堆 示 例 。 

配对 堆 的 具体 实现 用 到 第 4 章 中 所 讨论 的 左 儿 子 、 右 兄弟 表示 方法 。 我 们 将 看 到 ， 
decreaseKey 操作 要 求 每 个 节点 包含 一 个 附加 的 链 。 作 为 最 左 儿 子 的 节点 含有 一 个 指向 其 父亲 的 
链 ; 否则 ,这 个 节点 就 是 一 个 右 兄弟 并 含有 一 个 指向 它 的 左 兄弟 的 链 。 我 们 将 把 这 个 域 叫做 prev 
域 。 为 了 简洁 我 们 省 去 类 构架 和 配对 堆 节 点 声明 , 它们 完全 是 直观 的 。 图 12-46 指出 图 12-45 中 
的 配对 堆 的 具体 表示 。 





Om E 
图 12-45 水 例 配对 堆 ; 抽象 表示 法 图 12-46 ”左面 的 配对 堆 的 具体 表示 


我 们 以 概述 基本 操作 开始 。 为 了 合并 两 个 配对 堆 , 我 们 使 具有 较 大 根 的 堆 成 为 具有 较 小 根 
的 堆 的 左 儿 子 。 当 然 , 插 人 是 合并 的 特殊 情形 。 为 执行 一 次 decreasekey, 我 们 降低 相应 的 节点 
的 值 。 因 为 对 于 所 有 的 节点 都 将 不 保留 父 链 , 所 以 我 们 不 知道 这 是 否 会 破坏 堆 序 。 于 是 , 我 们 将 
调整 后 的 节点 从 它 的 父 节 点 切除 , 通过 合并 所 得 到 的 两 个 堆 而 完成 decreaseKey 操作 。 为 了 执行 
deleteMin, 我 们 将 根除 去 , 得 到 堆 的 一 个 集合 。 如 果 根 有 c 个 儿子 , 那么 对 合并 过 程 进行 c- 1 
次 调用 将 重建 该 堆 。 这 里 , 最 重要 的 细节 就 是 用 于 执行 合并 的 方法 以 及 如 何 应 用 -1 次 合并 。 

图 12-47 显示 如 何 将 两 个 子 堆 合并 。 这 个 过 程 可 被 推广 到 允许 第 二 个 子 堆 有 兄弟 的 情形 。 
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我 们 早先 提 到 过 ,可 以 让 具有 较 大 根 的 子 堆 成 为 另 一 个 子 堆 的 最 左边 的 儿子 。 程 序 很 简单 , 如 图 
12-48 Fra. HER, 我 们 有 几 个 例子 , 在 这 些 (F) 
例子 中 , 在 给 一 个 节点 的 引用 赋予 prev 域 之 ^ AC 

前 要 测试 它 是 否 是 nll; 这 使 我 们 想到 , 有 一 GA A 

个 nullNode 警戒 标记 或 许 是 有 用 的 , EVR A 

上 放 在 本 章 的 查找 树 的 实现 中 。 BE K 


12-47 compareAndLink 合并 两 个 子 堆 


f** 

* Internal method that is the basic operation to maintain order. 

* Links first and second together to satisfy heap order. 

* @param first root of tree 1, which may not be null. 

* first.nextSibling MUST be null on entry. 

* @param second root of tree 2, which may be null. 

* Breturn result of the tree merge. 

gi 

private PairNode<AnyType> compareAndLink( PairNode<AnyType> first, 

PairNode<AnyType> second ) 


on DU AWD 


{ 
^ if( second == null ) 
return first; 


if( second.element.compareTo( first.element ) < 0 ) 
{ 
// Attach first as leftmost child of second 
second.prev = first.prev; 
first.prev = second; 
first.nextSibling = second. leftChild; 


if( first.nextSibling != null ) 
first.nextSibling.prev = first; 

second. leftChild = first; 

return second; 


) 


else 
{ 
// Attach second as leftmost child of first 
second.prev - first; 
first.nextSibling = second.nextSibling; 
if( first.nextSibling != null ) 
first.nextSibling.prev = first; 
second.nextSibling = first.leftChild; 
if( second.nextSibling != null ) 
second.nextSibling.prev = second; 
first.leftChild = second; 
return first; 





图 12-48 BOXE: 合并 两 个 子 堆 的 例 程 
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decreaseKey 需要 一 个 位 置 对 象 , 它 就 是 PairNode 实现 的 接口 。 图 12-49 显示 PairNode 类 和 


Position 接口 ,它们 均 榜 套 在 PairingHeap 类 中 。 


public class PairingHeap<AnyType extends Comparable<? super AnyType>> 


** 


* The Position interface represents a type that can 
* be used for the decreaseKey operation. 


gi 


public interface Position<AnyType> 


{ 
} 


AnyType getValue( ); 


private static class PairNode<AnyType> implements Position<AnyType> 


{ 


public PairNode( AnyType theElement ) 
{ element = theElement; leftChild = nextSibling = prev = null; } 


public AnyType getValue( ) 


{ return element; } 


public AnyType 

public PairNode<AnyType> 

public PairNode<AnyType> 

public PairNode<AnyType> 
} 


private PairNode<AnyType> root; 


private int theSize; 


// Rest of class follows 


element; 
leftChild; 
nextSibling; 
prev; 





12-49 PairingHeap 类 中 的 PairNode 类 和 Position 接口 


此 时 ，insert 和 decreaseKey 操作 是 抽象 描述 的 简单 实现 。 由 于 当 一 项 最 初 被 插 人 时 它 的 位 
置 是 确定 的 (不 能 改变 ), 因此 insert 将 它 所 创建 的 PairNode 返回 给 调用 者 。 程 序 如 图 12-50 所 
示 。 如 果 新 的 关键 字 值 不 小 于 旧 的 关键 字 , 那么 decreaseKey 的 例 程 抛 出 一 个 异常 ; BU, 结果 
得 到 的 结构 可 能 不 遵守 堆 序 。 基 本 的 deleteMin 过 程 由 抽象 描述 直接 得 到 , 如 图 12-51 所 示 。 这 
里 的 element Shi BAK null, 因此 , 如果 Position 用 在 decreaseKey 'P, 那么 decreaseKey 就 将 


有 可 能 检测 到 Position 不 再 是 合法 的 。 


** 


* @param x the item to insert. 


1 
2 
3 
4 
2 
6 


*/ 


* Insert into the priority queue, and return a Position 
* that can be used by decreaseKey. Duplicates are allowed. 


* @return the Position (PairNode) containing the newly inserted item. 


图 12-50 ACXTHE: insert 方法 和 decreaseKey 方法 
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public Position<AnyType> insert( AnyType x ) 
( 


PairNode<AnyType> newNode = new PairNode<AnyType>( x ); 


if( root == null ) 
root = newNode; 
else 
root = compareAndLink( root, newNode ); 


theSize**; 


return newNode; 


** 

* Change the value of the item stored in the pairing heap. 

* @param pos any Position returned by insert. 

* @param newVal the new value, which must be smaller than the currently stored value. 
* @throws IllegalárgumentException if pos is null, deleteMin has 

* been performed on pos, or new value is larger than old. 

T 
public void decreaseKey( Position<AnyType> pos, AnyType newVal ) 

{ 

PairNode<AnyType> p = (PairNode<AnyType>) pos; 


if( p == null || p.element == null || p.element.compareTo( newVal ) < 0 ) 
throw new IllegalArgumentException( ); 


p.element = newVal; 
if( p != root ) 
{ 
if( p.nextSibling != null ) 
p.nextSibling.prev = p.prev; 
if( p.prev.leftChild == p ) 
p.prev.leftChíld = p.nextSibling; 
else 
p.prev.nextSibling = p.nextSibling; 


p.nextSibling = null; 
root = compareAndLink( root, p ); 





Kd 12-50 (5) 


** 


* Remove the smallest item from the priority queue. 
* @return the smallest item. 


* @throws UnderflowException if pairing heap is empty. 
gi 





图 12-531 配对 堆 deletMin 
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public AnyType deleteMin( ) 


if( isEmpty( ) ) 
throw new UnderflowException( ); 


AnyType x = findMin( ); 
root.element = null; // null it out in case used in decreaseKey 
if( root.leftChild == null ) 


root = null; 
else 
root = combineSiblings( root.leftChild ); 


theSize--; 
return x; 





图 12-51 (#8) 

当然 , 麻烦 在 于 一 些 细节 上 : combineSiblings 如 何 实现 ? 已 经 提出 几 种 变化 , 但 是 都 不 能 证 
明 它 们 能 够 提供 如 斐 波 那 契 堆 那样 相同 的 摊 还 界 。 最 近 已 经 证 明 , 事实 上 几乎 所 有 提出 的 方法 
在 理论 上 都 不 如 斐 泼 那 契 堆 有 效 。 即 使 这 样 对 于 涉及 大 量 decreaseKey 操作 的 一 般 图 论 应 用 来 
说 , 图 12-52 中 编写 的 方法 似乎 总 是 与 其 他 堆 结 构 一 样 运行 甚至 比 它 们 (包括 二 叉 堆 ) 还 好 。 

这 种 方法 是 已 经 提出 的 许多 变形 方法 中 最 简单 和 最 实际 的 方法 , 我们 称 之 为 两 赵 合 并 法 
(two-pass merging)。 首 先 , 我 们 从 左 到 右 扫 描 , 合并 诸 儿 子 对 。2 在 第 一 次 扫描 之 后 , 还 有 一 半 
数量 的 树 要 合并 。 然 后 执行 第 二 趟 扫描 , 但 从 右 到 左 。 在 每 一 步 , 我 们 将 第 一 次 扫描 剩 下 的 最 右 
边 的 树 和 当前 合并 的 结果 合并 。 例 如 ,如果 有 8 个 儿子 c, 到 cs, 那么 第 一 次 扫描 进行 c| Mc, 
C3 和 C45 C5 和 C65 C3 和 C8 的 合并 。 结果 得 到 di, d3, d3 和 d4o 通过 合并 d; 和 d, 执行 第 二 趟 
扫描 ; 然后 d; 和 这 个 结果 合并 , 最 后 d, 再 和 刚 得 到 的 结果 合并 。 


** 

* Internal method that implements two-pass merging. 
* @param firstSibling the root of the conglomerate; 
* assumed not null. 


* 


private PairNode<AnyType> combineSiblings( PairNode<AnyType> firstSibling ) 
( 


Con ALA L Ne 


if( firstSibling.nextSibling == null ) 
return firstSibling; 


// Store the subtrees in an array 
int numSiblings = 0; 
for( ; firstSibling != null; numSiblings++ ) 
{ 


treeArray = doublelfFull( treeArray, numSiblings ); 
treeArray[ numSiblings ] = firstSibling; 





图 12-52 配对 堆 : 两 趟 合并 法 


O 如 果 有 奇数 个 儿子 我 们 必须 仔细 。 此 时 ,将 最 后 一 个 儿子 与 最 右边 的 合并 结果 合并 以 完成 第 一 趟 扫描 。 
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firstSibling.prev.nextSibling = null; // break links 
firstSibling = firstSibling.nextSibling; 
) 
treeArray = doubleIfFull( treeArray, numSiblings ); 
treeArray[ numSiblings ] = nul!; 


// Combine subtrees two at a time, going left to right 
inti = 0; 
for( ; i + 1 < numSiblings; i += 2 ) 
treeArray[ i ] = compareAndLink( treeArray[ i ], treeArray{ i + 1] ); 


// j has the result of last compareAndLink. 
// 1f an odd number of trees, get the last one. 
int j=i- 2; 
if( j == numSiblings - 3 ) 
treeArray[ j ] = compareAndLink( treeArray[ j ], treeArray[ j + 2] ); 


// Now go right to left, merging last tree with 
// next to last. The result becomes the new last. 
for( ; j >= 2; j -* 2) 
treeArray[ j - 2 ] = compareAndLink( treeArray[ j - 2 ], treeArray[ j ] ); 


return (PairNode<AnyType>) treeArray[ 0 ]; 


} 
private PairNode<AnyType> [ ] 


doublelfFull( PairNode<AnyType> [ ] array, int index ) 


{ 
if( index == array.length ) 


PairNode<AnyType> [ ] oldArray = array; 


array = new PairNode[ index * 2 ]; 
for( int i = 0; i < index; i++ ) 
array( i ] = oldArray[ i ]; 
} 


return array; 


// The tree array for combineSiblings 
private PairNode<AnyType> [ ] treeArray = new PairNode[ 5 1; 





图 12-52 ( 续 ) . 


这 里 的 实现 方法 要 求 数组 存储 诸 子 树 。 在 最 坏 情形 下 , 可 能 有 六 -1 项 都 是 根 的 儿子 , 但 是 
在 combineSiblings 方法 的 内 部 声明 一 个 大 小 为 N 的 数组 将 给 出 一 个 O(N) 算 法 。 因 此 , 我 们 用 
一 个 扩大 的 数组 来 代替 。 

其 他 一 些 合 并 方法 在 练习 中 讨论 。 唯 一 简单 旦 容易 看 出 不 足 的 合并 方法 是 从 左 到 右 单 趟 合 
并 ( 见 练习 12.35)。 配 对 堆 是 “简单 即 更 好 ”的 一 个 好 例子 , 而 且 它 似乎 是 要 求 decreaseKey 或 
merge 操作 的 一 些 重 大 应 用 所 适合 的 方法 。 
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小 结 


在 这 一 章 , 我 们 看 到 二 叉 查 找 树 几 种 有 效 的 变种 。 自 顶 向 下 伸展 树 提供 了 O(log N) HREM 
HERE, treap 树 给 出 O(log N) 随 机 化 的 性 能 , 而 红 黑 树 、 确 定性 跳跃 表 和 AA 树 均 给 出 对 基本 操 
作 的 O(log N) 最 坏 情形 性 能 。 各 种 结构 之 间 的 比较 涉及 代码 复杂 性 、 删除 的 简易 性 以 及 不 同 的 
查找 和 插 人 的 开销 。 很 难说 哪 种 结构 是 明显 的 赢家 。 复 议 的 论题 包括 树 的 旋转 以 及 标记 节点 的 
使 用 以 避免 对 null 引用 的 许多 恼人 的 测试 , 若 不 是 用 标记 节点 则 这 些 测试 原本 是 必 不 可 少 的 。 
即使 理论 的 界 不 是 最 优 的 ,k-d 树 还 是 提供 了 执行 范围 查找 的 实际 方法 。 

最 后 , 我 们 描述 配对 堆 并 将 配对 堆 编程 , 它 似 乎 是 最 实际 的 可 合并 的 优先 队列 ,特别 是 当 需 
要 decreaseKey 操作 的 时 候 。 不 过 , 在 理论 上 它 的 效率 不 如 斐 波 那 契 堆 。 


练习 


12.1 
"12.2 


12.3 
12.4 
12:5 
12.6 
12.7 
12.8 


12.9 
12.10 
* 12.11 
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证 明 自 顶 向 下 展开 的 摊 还 时 间 为 O(log N)。 
证 明 对 于 从 底 向 上 展开 存在 每 次 访问 需要 2log N 次 旋转 的 访问 序列 。 证 明 类 似 的 结果 
对 于 自 顶 向 下 的 展开 也 成 立 。 
修改 伸展 树 以 支持 对 第 个 最 小 项 的 查询 。 这 在 确定 性 跳跃 表 中 将 如 何 处 理 ? 
从 经 验 上 比较 简化 的 自 顶 向 下 展开 和 原始 描述 的 自 项 向 下 展开 。 
编写 关于 红 黑 树 的 删除 过 程 。 
证 明 红 黑 树 的 高 度 最 多 为 2log N, 并 证 明 这 个 界 实质 上 不 能 再 降低 。 
证 明 每 一 棵 AVL 树 都 可 以 被 涂 成 红 黑 树 。 所 有 的 红 黑 树 都 是 AVL 树 吗 ? 
证 明 1-2-3 确定 性 跳跃 表 可 以 表示 成 一 棵 2-3-4 树 ( 即 4 阶 B 树 ), 它 的 项 在 内 部 节点 上 
也 可 在 树叶 上 。 
如 果 我 们 试图 插入 已 经 在 确定 性 跳跃 表 中 存在 的 项 , 那么 会 发 生 什么 情况 ? 
证 明 在 1-2-3 确定 性 跳跃 表 中 最 多 能 够 用 到 2N 个 节点 。 
在 Java 语 言 中 ,每 一 个 抽象 节点 均 可 表示 成 动态 分 配 的 前 向 链 的 数组 以 代替 节点 引用 
组 成 的 链表 。 指 出 如 何 用 这 种 方法 实现 1-2-3 确定 性 跳跃 表 并 保持 每 个 操作 的 
O(log N) 时 间 界 。 
写 出 关于 1-2-3 确定 性 跳跃 表 的 删除 过 程 。 
证 明 AA 树 中 关于 删除 的 算法 是 正确 的 。 
给 出 AA 树 的 一 种 非 递归 的 自 顶 向 下 实现 方法 。 比 较 其 与 课文 中 实现 方法 的 简单 性 
和 效率 。 
递归 地 编写 出 skew 过 程 和 split 过 程 , 使 得 对 删除 操作 每 个 过 程 只 需 调 用 一 次 。 
AA 树 使 用 的 程序 代码 比 BB 树 少 多 少 行 ? 这 能 使 AA 树 更 快 吗 ? 
通过 使 用 一 个 栈 来 非 递归 地 实现 treap 树 的 插入 例 程 。 这 种 努力 值得 吗 ? 
通过 使 用 访问 次 数 作为 优先 级 并 在 每 次 访问 后 需要 时 执行 一 些 旋转 ,我们 可 以 使 treap 
树 成 为 是 自 调 整 的 。 将 这 种 方法 和 随机 化 方法 进行 比较 。 另 外 , 也 可 在 每 次 访问 一 
项 X 时 生成 一 个 随机 数 。 如 果 这 个 数 小 于 X 当前 的 优先 级 , 那么 就 用 它 作为 X 的 新 
的 优先 级 (执行 相应 的 旋转 ) 。 
证 明 : 如 果 把 各 项 排序 , 那么 即使 优先 级 并 未 排序 ,treap 树 也 可 以 以 线性 时 间 构 造 。 
不 使 用 nullNode 标记 实现 某 些 树 结构 。 使 用 标记 可 以 节省 多 少 编程 工作 ? 
假设 对 于 每 个 节点 我 们 存储 其 子 树 中 的 null 链 的 个 数 ; 称 之 为 节点 的 权 (weight)。 
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采用 下 列 方法 : 如 果 左 子 树 和 右 子 树 的 权 相 差 超出 因子 2, 那么 彻底 重建 根 在 该 节点 
的 子 树 。 证 明 下 列 结论 : 

a. 能 够 以 O(S) 重 建 一 个 节点 , 其 中 S 是 该 节点 的 权 。 

b. 该 算法 每 次 插入 操作 的 挫 还 时 间 为 O(log N)。 

c. 我 们 能 够 以 O(Slog S) 时 间 在 Ad 树 中 重建 一 个 节点 , 其 中 S 是 该 节点 的 权 。 

d. 可 以 将 该 算法 用 于 k-d BE, 其 每 次 插入 的 代价 为 O(logN). 

假设 我 们 对 任意 一 棵 2-d 树 调用 rotateWithLeftchilid。 详 细 解 释 其 结果 不 再 是 一 村 
可 用 的 2-d 树 的 全 部 原因 。 

实现 对 于 k-d 树 的 插入 和 范围 查询 。 不 要 使 用 递归 。 

对 于 对 应 于 &=3,4, 5 的 p 的 值 , 确定 部 分 匹配 查询 的 时 间 。 

对 于 一 棵 理想 平衡 Ad 树 , 求 出 课文 中 引用 的 一 次 范围 查询 的 最 坏 情形 运行 时 间 。 
2-d 堆 (2-d heap) 是 允许 每 一 项 拥有 两 个 单独 关键 字 的 一 种 数据 结构 。deleteMin 可 以 
对 于 这 两 个 关键 字 中 的 任 一 个 执行 。2-d 堆 是 具有 下 述 性 质 的 完全 二 叉 树 : 对 于 偶数 
深度 上 的 任 一 节点 X, 存储 在 X 上 的 项 拥有 它 的 子 树 上 最 小 的 1 号 关键 字 , 而 对 于 
奇数 深度 上 的 任 一 节点 X, 存储 在 X 上 的 项 具有 它 的 子 树 上 最 小 的 2 号 关键 字 。 

a. 画 出 关于 (1,10),(2,9),(3,8),(4,7),(5,6) 诸 项 的 一 个 可 能 的 2-& HE, 

b. 如 何 找 出 具有 最 小 1 号 关键 字 的 项 ? 

c. 如 何 找 出 具有 最 小 2 号 关键 字 的 项 ? 

d. 给 出 一 个 将 一 新 的 项 插入 到 2-d 堆 中 的 算法 。 

e. 给 出 一 个 对 于 任 一 关键 字 执行 deleteMin 操作 的 算法 。 

f. 给 出 一 个 以 线性 时 间 实 施 buildHeap 的 算法 。 

将 前 面 的 练习 推广 以 得 出 一 个 kd ME, 在 这 个 堆 中 每 一 项 都 可 有 个 单独 关键 字 。 
你 应 该 能 够 得 到 下 列 的 界 : 以 O(log N) 实 施 insert, 以 O(2*log N) 实 施 deleteMin, 
以 及 以 O(kN) 完 成 buildHeap。 

证 明 k-d 堆 可 以 用 于 实现 双 端 优先 队列 。 

抽象 地 推广 kd 堆 使 得 只 有 那些 按照 1 号 关键 字 分 支 的 层 有 两 个 儿子 (所 有 其 他 层 都 
有 一 个 儿子 )。 

a. 我 们 需要 链 吗 ? 

b. 显然 , 那些 基本 算法 仍然 有 效 , 它们 新 的 时 间 界 是 多 少 ? 

使 用 Ad 树 实现 deleteMin。 对 于 随机 树 , 你 期 望 其 平均 运行 时 间 是 多 少 ? 

使 用 kd 堆 实 现 双 端 队列 ( 见 练习 3.28), 该 队列 也 支持 deleteMin 操作 。 

使 用 nullNode 标记 实现 配对 堆 。 

证 明 : 对 于 课文 中 的 配对 堆 算 法 , 每 次 操作 的 摊 还 时 间 为 O(log N)。 
conbineSiblings 的 另 一 种 方法 是 把 所 有 的 兄弟 都 放 到 一 个 队列 中 , 并 反复 dequeue 
及 合并 队列 中 的 前 两 项 , 把 结果 放 到 队 尾 。 实 现 这 种 方法 。 

在 前 面 的 练习 中 不 用 队列 而 使 用 栈 不 是 个 好 主意 , 通过 给 出 一 个 序列 导致 每 次 操作 
花费 Q(N) 来 给 出 论证 。 这 就 是 从 左 到 右 单 趟 合并 。 

不 用 decreaseKey 操作 ,也 可 以 除去 父 链 。 使 用 斜 堆 效 果 会 如 何 ? 

设 下 列 每 一 问 都 可 以 表示 成 一 棵 具有 儿子 的 引用 和 父亲 的 引用 的 树 。 解 释 如 何 实现 
decreaseKey 操作 。 

a. — X ME 
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b. 伸展 树 

当 用 图 形 观察 时 , 2-d 树 上 的 每 个 节点 都 把 平面 划分 成 一 些 区域 。 例 如 , 图 12-53 显 
示 对 图 12-42 中 的 2-d 树 的 前 5 次 插入 。 第 一 次 插入 pl 把 平面 分 成 左右 两 部 分 。 第 
二 次 插入 p2 又 将 左 部 分 分 成 上 下 两 部 分 , 等 等 。 

a. 给 定 N 项 , 它们 插入 的 顺序 是 否 影响 最 后 的 划分 ? 

b. 如 果 两 个 不 同 的 插入 序列 得 到 相同 的 树 , 那么 对 应 的 划分 是 否 相同 ? 

c. 给 出 经 过 N 次 插入 之 后 所 划分 的 区 域 个 数 的 公式 。 

d. 指出 图 12-42 中 的 2-a 树 的 最 后 的 划分 。 


vl Laat 
lo | ete | eb | els 
[^ | ae | El | Dno 


图 12-53 平面 由 2-d WERA pl = (53,14), p2= (27,28), 3 = (30,11), 
p4= (67,51), p5 — (70,3) Ji PET SU B o] 

2-d 树 的 一 种 变化 是 四 分 树 (quad tree)。 图 12-54 显示 平面 是 如 何 被 一 棵 四 分 树 划 分 
的 。 开 始 时 我 们 有 一 个 区 域 ( 它 常常 是 一 个 方块 , 但 不 是 必须 的 )。 每 个 区 域 可 存储 
一 个 点 。 如 果 将 第 2 个 点 插入 到 区 域 中 , 那么 区 域 就 被 划分 成 4 块 相 等 大 小 的 象限 
(右上 , MF, AP, 左上 )。 如 果 能 够 把 点 放 在 不 同 的 象限 中 (如 在 p2 插入 时 的 情 
形 ), 那么 插入 完成 ; 否则 , 我 们 继续 递归 地 分 裂 区 域 (就 像 插 入 p5 时 所 做 的 那样 )。 
a. 给 定 N 项 , 插入 的 顺序 是 否 影 响 最 后 的 划分 ? 

b. 如 果 把 在 图 12-42 的 2-d 树 中 那些 相同 的 元 素 插 人 到 四 分 树 中 , 指出 最 后 的 划分 。 





fH12-54 平面 由 四 分 树 (quad tree) TESA pl = (53,14), p2— (27,28), p3 — (30,11), 
ph4=(67,51),p5=(70,3) 后 所 得 到 的 划分 


12.40 “ 树 的 数据 结构 可 以 存储 四 分 树 。 我 们 保留 原始 区 域 的 边界 。 树 的 根 表 示 原 来 的 区 域 。 
每 个 节点 或 者 是 一 片 树 叶 , 存放 一 个 插 人 项 , 或 者 刚好 有 4 个 儿子 , 代表 4 个 象限 。 
为 了 进行 查找 , 我 们 从 根 处 开始 并 反复 分 支 到 相应 的 象限 , 直到 到 达 一 片 树叶 (或 是 
null Ji) Aik. 
a. 画 出 对 应 图 12-54 的 四 分 树 。 
b. 哪些 因素 影响 (四 分 ) 树 的 深度 ? 
c. 描述 一 种 算法 , 使 在 一 棵 四 分 树 中 执行 一 次 正 交 范围 查寻 。 

参考 文献 


自 项 向 下 伸展 树 在 原始 伸展 树 论文 [29] 中 做 了 描述 。 类 似 的 但 不 使 用 至 关 重 要 的 旋转 的 方 
法 在 [31] 中 描述 。 自 项 向 下 红 黑 树 算法 取 自 [17]; 更 易于 理解 的 描述 可 以 参见 [28]。 自 项 向 下 
红 黑 树 不 用 标记 节点 的 实现 在 [14] 中 给 出 ; 它 提供 了 nullNode 实用 性 令 人 信服 的 论证 。 确 定性 
跳 唉 表 及 其 变种 在 [23] 和 [26] 中 讨论 。 对 称 二 叉 B 树 来 源 于 [6]; 课文 中 讨论 的 AA 树 的 实现 采 
用 [1] 和 [3] 中 的 描述 。treap 树 [4] 是 基于 [32] 中 描述 的 笛 卡 儿 树 (Cartesian tree)。 相 关 的 数据 结 
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构 是 优先 查找 树 (priority search tree)[21 1]。 

k-d 树 首先 在 [7] 中 介绍 。 其 他 的 范围 查找 算法 在 [8] 中 描述 。 在 平衡 k-d 树 上 范围 查找 的 最 
坏 情 形 在 [19] 中 得 到 , 而 书 中 引用 的 平均 情形 结果 来 自 [13] 和 [10]。 

配对 堆 及 在 练习 中 提出 的 一 些 变化 在 [16] 中 描述 。 论文 [18] 提 出 伸展 树 是 在 不 需要 
decreaseKey 操作 时 适合 选择 的 优先 队列 。 另 外 一 篇 论文 [30] 提 出 配对 堆 达 到 与 斐 波 那 契 堆 相 同 
的 渐进 界 但 在 实践 中 性 能 更 好 。 然 而 , 一 篇 使 用 优先 队列 实现 最 小 生成 树 算 法 的 相关 论文 [22] 
提出 decreaseKey 的 摊 还 时 间 不 是 O(1)。M.Fredman[ 15] 通 过 证 明 存 在 使 decreaseKey 操作 的 摊 
还 时 间 为 次 最 优 ( 事 实 上 最 少 为 O(log log N)) 的 序列 而 解决 了 最 优 性 问题 。 不 过 , 他 还 证 明了 ， 
当 用 来 实现 Prim 最 小 生成 树 算法 时 ,如果 图 稍微 稠密 ( 即 图 中 边 的 条 数 为 O(N), 其 中 e>0 
是 任意 的 ), 那么 配对 堆 则 是 最 优 的 。 然 而 , 配对 堆 的 完整 分 析 仍 未 解决 。 

大 部 分 练习 的 解 可 以 在 原始 参考 文献 中 找到 。 练 习 12.21 代表 多 少 有 些 流行 的 一 种 "懒惰 ” 
平衡 方法 。[20]、[5]、[11] 和 [9] 描 述 一 些 特殊 的 方法 ; [2] 指 出 在 一 种 框架 内 如 何 实现 所 有 这 
些 方法 。 满 足 练习 12.21 中 的 性 质 的 树 是 加 权 平 衡 (weight-balanced) 的 ,这 些 树 也 可 通过 旋转 保 
持 其 特性 [24],(d) 问 取 自 [25]。 练 习 12.26 到 12.28 的 解 可 以 在 [12] 中 找到 。 对 四 分 树 的 描述 
见于 [27]。 
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(max) HE( (max) heap) ),153,183 
1-2-3 fifa E TEBEEK E (1-2-3 deterministic skip list) . 368 
1-2-3 WR AE TEBERK A RIK E HH 3C BR (horizontal array 
implementation of the 1-2-3 deterministic 
skip list) ,373 
2-3-4 BE (2-3-4 tree) , 389 
2-d HE(2-d heap) , 390 
a-B RY (a-8 pruning) 326 
AANode 3 ( AANode class) , 374 
AAT ree 2E ( AATree class) ,374 
AA BE CAA-tee) ,374 
Ackermann 函数 (Ackermann 's function) , 227 
ArrayListlterator 2S ( ArrayListIterator class) ,55 
ArrayList 2E ( ArrayList class) ,48 
ArrayStoreException 2S ( ArrayStoreException class) ,11 
ASCII “7-448 (ASCII character set) ,284 
AvINode 28 ( AvINode class) , 98 
AVL (AVL tree) ,92 
a 裁减 (a pruning) , 326 


D * BB» -tree),121 

B+ (B+ tree). 109 

BB 树 (BB-tree),373 

BigInteger X (BigInteger class) ,36 
BinaryHeap 类 {BinaryHeap class) ,152 
BinaryNode 类 {BinaryNode class) ,82 ,85 
BinarySearchTree 类 (BinarySearchTree class) ,85 
BinomialQueue 2 ( BinomialQueue class) ,173 
Boggle 33 ( Boggle game) , 335 

BoxingDemo 3 ( BoxingDemo class) , 13 
BERRI (B pruning) , 327 

D BE CB tree), 108 


Carmichael 1 (Carmichael number) , 317 
Catalan # (Catalan numbers) , 306 
ClassC'asi Exception Æ (ClassCastException class) , 10 
Collection # £1 (Collection interface) .46 
Collections API( Collections API) , 46 
Comparable 1& F (Comparable interface) , 10, 183 
Concurrent ModificationException 类 
( Concurrent ModificationException class) , 48 


5| 


deap 双 端 堆 (deap) , 181 


Dijkstra 算法 (Dijkstra s algorithm) ,246 
DisjSets 类 {DisjSets class) ,222 

DSL 类 (DSL class) ,370 

d- 堆 (dheap) ,161 


FindMaxDemo 类 (FindMaxDemo class) ,11 
GenericMemoryCell 类 (GenericMemoryCell class) ,12 


HashEntry 类 (HashEntry class) ,135 
HashMap 26 ( HashMap class) , 144 
HashSet 类 (HashSet class) , 144 

Hibbard 7&9 ( Hibbard’ s increment) , 187 
Horner 法 则 (Homer s rule) , 40 


IS-A X X (IS-A relationship), 10 
herator #11 (Iterator interface) ,47 


Josephus fa} 2% ( Josephus problem) ,73 


k-d 堆 (k-d heap) , 390 

k-d 树 (k-d tree) ,381 

Kevin Bacon 游戏 (Kevin Bacon game) ,278 
Kruskal 算法 (Kruskal's algorithm) , 260 

k Br3EQE AB 32 (kth order Fibonacci number) , 210 
k -可 着 色 的 (k-colorable) ,277 

k-Fi & Jf (k-way merge) ,209 


LeftistHeap Æ { LeftistHeap class) , 165 
LinkedListIterator Æ ( LinkedListIterator class) ,63 
LinkedList 3 ( LinkedList class) , 49 

List 接口 (List interface) ,48 

List [terators #€ 0 ( List Iterators interface) ,51 


Map 接口 (Map interface) , 119 

MAXIT 游戏 (MAXIT) ,335 
MemoryCell 类 { MemoryCell class) ,9 
Movelnfo Æ ( MoveInfo class) , 323 
MyLinkedList 2$ ( MyArrayList class) , 53 
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MyArrayList 2 ( MyLinkedList class) ,60 
M 又 查 找 树 (M-ary search tree) , 108 


Node 类 (Node class) , 58,165,173 

NP 类 {class NP),271 

NP- 完 全 问题 (NP-complete problem) , 270 , 272 

NullPointerException 28 ( NullPointerException 
class), 86 


Obiect 类 (Object class) ,9 


PairingHeap 类 (PairingHeap class) ,385 
PairNode 类 (PairNode class) ,385 
Prim 33 CPrim' s algorithm) ,259 


QuadraticProbingHashTable 25$ ( QuadraticProbingHashTable 
class) , 135 


RedBlackNode 3 ( RedBlackNode class) , 365 
RedBlackTree 3 ( RedBlackTree class) , 365 


Sedgewick 的 增 量 序列 (Sedgewick 's increment sequences) , 
188 

SeparateChainingHashTable 类 (SeparateChainingHashTable 
class) ,129， 

Set 接口 (Set interface) ,112 

SkipNode 3 ( SkipNode class) , 371 

SortedMap # M (SortedMap interface) , 112 

SortedSet 接口 (SortedSet interface) , 112 

SplayTree 36 (SplayTree class) , 358 

Stirling 4: 3X (Stirling' s formula) ,215 

Strassen 算法 (Strassen s algorithm) , 301 

String Æ (String class) , 142 


TestMemoryCell 35 ( TestMemoryCell class) , 9 
TestProgram 2€ ( Test Program class}, 18 
TreapNode 2% ( TreapNode class) , 379 

treap 树 (treaps) , 378 

TreeMap 类 (TreeMap class) , 112,120, 142 
TreeSet 类 (TreeSet class) ,112,119 

trie BE Curie), 285 


Vertex JS( Vertex class) ,238,248 
Voronoi [E ( Voronoi diagram) , 332 


WrapperDemo 2 ( WrapperDemo class) , 10 


Ziv- Lempel $8183 ( Ziv- Lempel encoding) , 335 


按 大 小 求 并 (union-by-size) ,223 

按 高 度 ( 秩 ) 求 并 (union-by-height(rank) ) ,225 

棒球 卡 收藏 家 问题 (baseball card collector problem) ,278 

包 可 见 性 (package visibility) ,55 

包装 类 (wrapper class) ,9 

背包 问题 (knapsack problem) ,273 ,333 

背 向 边 (back edge) ,263 

边 (edge),77,237 

编译 时 错误 (compile-time errors) ,15 

变换 表 {transposition table) , 145 

标记 {sentinel) , 155 

标记 节点 (sentinel node) ,58 

表 ADT(list ADT) ,44 

表达 式 的 前 缓 记 法 (prefix notation) ,83 

表达 式 树 (expression tree) ,82 

表 的 遍历 (traversal of the list) ,59 

表 的 数组 实现 (array implementation of lists) ,45 . 

HAE (game tree) ,326 

不 可 判定 问题 (undecidable problem) ,270 

不 相交 集 (disjoint set) ,220 

不 相交 集 union/find 算法 (disjoint set union/find algorithm), 
220 

部 分 匹配 查询 (partial match query) ,382 

裁 前 (pruning) ,319 

残余 边 {residual edge) ,255 

残余 图 { residual graph) ,255 

操作 符 (operator) ,82 

操作 数 (operand) ,82 

层 (ply) ,325 

层 序 遍历 (level-order traversal) ,107 

插入 排序 (insertion sort) , 183 

超 类 (superclass) ,9 

RŽ (collision), 126 

抽象 数据 类 型 (ADT)(abstract data type) , 44 

稠密 图 (dense graph) ,238 

丑 点 (ugtiness point) ,332 

Hi BA (dequeue) ,70 

出 栈 (pop) , 64 

传递 的 (transitive) ,219 

词 梯 游 戏 (word ladders) ,253 

磁盘 区 块 (disk block) ,80 

次 最 优 解 (suboptimal solution) ,282 

大 O 标记 法 (big O notation) ,22 

代码 的 值 (cosi of the code) , 285 

带 (strip) ,296 

带 有 限界 的 通配符 (bounded wildcard) ,14,18 

单 趟 合并 {single-pass merge) ,388 

单 旋转 (single rotation) ,94 
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单 源 最 短路 径 问 题 (single-source shortest-path problem) , 
241 

等 价 关 系 (equivalence relation) ,219 

等 价 类 {equivalence class) ,219 

滴答 (tick) ,161 

笛 卡 儿 树 (Cartesian tree) , 392 

地 平 线 (skyline) ,370 

递归 (recursion),5 

递归 不 可 判定 的 (recursively undecidable) ,271 

递归 的 四 条 基本 法 则 {four basic rules of recursion) ,7,8 

递归 调用 (recursive call) ,6 

电器 连通 性 (electrical connectivity) ,219 

JERSE (iterator), 48 

3e GSK H ( telescoping) , 193 

THA (vertex) ,237 

顶点 的 入 度 {indegree of a vertex) ,240 

顶点 覆盖 问题 { vertex cover problem) ,278 

动态 规划 {dynamic programming) , 303 

动作 节点 图 {activity-node graph) ,251 

堆 (beap) ,151 

HEHE FF (heapsort) , 160, 188 

堆 序 性 质 (heap-order property) , 153 

队列 ADT(queue ADT) ,70 

队列 的 数组 实现 (array implementation of queues) ,71 

队 头 (front) ,70 

BA FB (rear) ,70 

XH — X. B Ri (symmetric binary B-tree) ,391 

对 称 的 (symmetric) ,219 

对 数 (logarithms) ,2 

多 路 合并 (multiway merge) ,209 

多 相合 并 (polyphase merge) ,210 

多 重 图 (multigraph) ,276 

ERLE Ef (Sieve of Eratosthenes) ,41 

JLF (child) ,77 

—X Bf (binary B-tree) ,373 

— MAR (binary search tree) ,82 

二 叉 堆 (binary heap), 151 

— X Bi (binary tree) ,82 

二 次 聚集 (secondary clustering) , 138 

二 分 匹配 问题 (bipartite matching problem) ,274 

二 分 图 (bipartite graph) ,274 

二 路 比较 (two-way comparison) ,42 

— HERI (two-dimensional search tree) ,381 

— 4 76 19 Al ( two-dimensional range query) , 381 

二 项 队列 (binomial queue) , 170,340 

二 项 树 (binomial tree) , 170,340 

发 点 (source) ,255 

反 证 法 证 明 (proof by contradiction) ,5 





返回 地 址 (return address) ,69 

泛 型 方法 (generic method) ,14 

泛 型 机 制 (generic mechanism) ,8 

泛 型 接口 {generic interface) ,12 

泛 型 类 (generic class) ,9 

泛 型 实现 (generic implementation) ,8 

范围 查询 (range query) ,382 

非 确 定型 多 项 式 时 间 (nondeterministic polynomial-time)， 
271 

非 预 占 调度 (nonpreemptive scheduling) , 283 

46 3% Bf $2 HE ( Fibonacci heap) ,181,345 

AE ptr 3E S36 ME (Fibonacci heap operations) , 348,480 

3E iE SE SC (Fibonacci number) ,4 

费 马 小 定理 (Fermat's Lesser Theorem) , 317 

分 离 链接 法 (separate chaining) ,128 

分 析 树 (parse tree) ,118 

分 治 策略 (divide-and-conquer strategy) ,30, 192 

分 治 算法 (Divide and conquer algorithm) ,293 

符号 表 (symbol table) ,144 

父 链 (parent tink) ,221 

父亲 (parent),77 

fa (HBA (negative-cost cycle) ,242 

WRAL PAESE (weighted path length) ,241 

概率 分 布 函 数 (probability distribution function) ,72 

NA (articulation point) ,263 

I8 ( root) ,77 

估算 运行 时 间 的 一 般 法 则 (general rules of estimating 
running time) ,27 

X: BEI (critical path) , 253 

关键 路 径 分 析 法 (critical path analysis) ,251 

关键 字 (key),126 

关系 (relation) ,219 

广度 优先 生成 树 {(breadth-first spanning tree) ,276 

广度 优先 搜索 (breadth-first search) ,243,276 

归并 排序 (mergesort),191 

归纳 法 证 明 (proof by induction) ,4 

归纳 假设 (inductive hypothesis) ,4 

归 约 (reduce),272 

0S k & 4485 (Huffman code) 284 

哈 夫 昌 算 法 (Huffman ' s algorithm) ,286 

và ac 7 SR RE [5] Bi ( Hamiltonian cycle problem) ,268,276 

函数 对 象 (function object), 10,17 

ZL RB (red black tree) ,362 

后 继 位 置 (successor position) , 323 

后 继 元 (successor) ,44 

后 进 先 出 (LIFO) 表 (LIFO list) ,64 

M FEN J (postorder traversal) ,80,83, 107 

fci (descendant) ,78 
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FARA (postfix expression) ,65 

W (arc) ,237 

划分 (partition) , 196 

环 (loop),237 

回潮 算法 (backtracking algorithm) ,319 
活动 记录 (activation record) ,69 
基本 类 型 (primitive type) ,9 
基础 图 (underlying graph) ,237 
基于 比较 的 排序 (comparison-based sorting) , 1 
基准 情形 (base case) ,4 

级 联 切 除 (cascading cut) , 349 

级 数 (series) ,3 

极 小 极 大 策略 (minimax stratege) ,323 
寄存 器 的 值 (register values) ,69 

加 权 平 衡 树 (weight-balanceq tree) ,369 

间隙 容量 (gap size) ,369 

简单 路 径 (simple path) ,237 

交叉 边 (eross edge) ,269 

接合 散 列 (coalesced hashing) ,148 

HEU (interface), 10 

节点 的 next 链 (next link) ,45 

节点 的 层次 (level) ,373 

节点 的 高 (height of a node) ,78 
节点 的 权 {weight of a node) ,389 

35 & fri ii (depth of a node) ,78 

节点 的 水 平 链接 (borizontal link) ,374 
节点 的 秩 (rank of a node) ,340,349,351 
截止 范围 (cutoff range),199 

近似 装 相 问题 (approximate bin packing problem) ,287 
近似 字 型 匹配 (approximate pattern matching) ,333 
HER (push) ,64 

Ric (sentinel) , 200 

具有 堆 序 的 双 端 队列 {deque with heap order) ,354 
决策 树 (decision tree) ,205 
均匀 散 列 (uniform hashing) , 148 
开放 定 址 散 列 (open addressing hashing) , 147 
开销 序列 (cost sequence) ,189 

可 扩散 列 (extendible hashing) ,142 

可 满足 性 问题 (satisfiability) ,273 
空 表 (empty list) ,44 

ZR (hole) 216 

快速 排序 (quicksort) , 195 
快速 选择 (quickselect) ,203 

快速 选择 算法 (quickselect algorithm) ,297 
懒惰 二 项 队列 (lazy binomial queue) , 347 
懒惰 合并 (lazy merging),345,347 
HOPE 87r HC lazy" balancing strategy) ,392 
HAt ABR (lazy deletion) ,75,90 
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3E FE BE ( type erasure) , 16 

类 型 参数 (type parameters) , 12 

类 型 限界 (type bound) , 15 

类 型 转换 (cast) , 11 

理想 二 叉 树 (ferfect binary tree), 108, 188 

理想 平衡 2-d fi (perfectly balanced 2-d tree) ,382 

理想 平衡 树 (perfectly balanced tree) ,92,179 

连通 {connected) ,237 

联机 装 箱 问 题 (on-line bin packing problem) ,287 

联机 算法 (on-line algorithm) ,33,220 

链表 (linked list) ,45 

两 不 合并 法 (two-pass merging) ,387 

邻接 (adjacent) ,237 

邻接 表 (adjucency list) ,238 

SIE SUA FI] (diamond deque) , 182 

零 路 径 长 (null path length) , 162 

流 守恒 (flow conservation) ,255 

流 图 (flow graph) ,255 

路 径 (path),78,237 

路 径 的 长 (length of a path) ,78,237 

路 径 名 (pathname) ,78 

路 径 平 分 (path halving) ,234 

路 径 压 缩 (path compression) , 225 

P FMAM (robin tournament) ,331 

AUEM (L' Hopital’ s rule) ,23 

L AY SFE ( knight’ s tour) ,333 

满 节 点 (full node) , 119 

满 树 (full tree) ,285 

冒 泡 排序 (bubble sor) ,24 ,185 

迷宫 的 生成 (generation of mazes) ,231 

MZA (exponentiation) ,35 

模型 (model) ,24 

模 运算 (modular arithmetic) ,4 

目录 (directory) ,143 

内 部 类 (inner class) ,55 

内 部 路 径 长 (internal path tength) ,90 

iai Sip CO iat ) (reverse Polish (postfix) notation) , 
66 

WFF (inversion) , 184 

WIL 88.49 2: ( Euclid’ s algorithm) ,35 

欧 拉 常 数 (Euler"s constant) , 4, 203 

欧 拉 环 游 (Euler tour) ,266 

欧 拉 回路 (Euler circuit) , 266 

欧 拉 路 径 (Euler path) ,266 

排队 论 (queuing theory) ,72 

配对 堆 (pairing heap) ,383 

偏 路 径 压 缩 (partial path compression) ,234 

平方 探测 (quadratic probing) ,133 
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平衡 {balance) ,92 

平衡 符号 (balancing symbols) ,65 

平均 内 部 路 径 长 (average internal path length) ,90 

平面 图 (planar graph) ,276 

七 数 中 值 取 中 分 割 法 (median-of-median-of- 
seven partitioning) ,329 

fij SK 2c ( predecessor) ,44 

Ai fe) (forward edge) , 268 

前 缀 码 (prefix code) ,285 

ft $E2K ( nested class) , 56 

3 343M (strongly connected) ,237 

轻 节 点 (light node) ,344 

FA (cycle) ,237 

4 TY SE (totally ordered set) , 159 

全 周期 (full period) ,312 

权 (weight) ,237 

AL 8 (weight function) , 354 

确定 性 跳跃 表 (deterministic skip list) ,368 

$$ Bt (capacity) , 50 

A BÀ Cenqueue) , 70 

弱 连 通 (weakly connected) , 237 

三 角形 不 等 式 (triangle inequality) ,331 

三 连 游戏 棋 (tic-tac-toe) ,332 

三 路 比较 (three-way comparison) ,42 

三 数 中 值 分 割 法 (median-of-three partitioning) , 197 

三 数 中 值 取 中 分 割 法 (median-of-median-of-three 
partitioning) ,329 

散 列 (hashing) ,126 

XXSIA ADT(hash table ADT), 126 

散 列 代码 闪存 (cashing the hash code) , 142 

WC eS BX (hash function) , 126 

LE: FE (upper bound) ,23 

EE (percolate up) , 153 

伸展 树 (splay tree) , 100 

深度 优先 生成 森林 (depth-first spanning forest) , 263 

深度 优先 生成 树 (depth-first spanning tree) ,263 

深度 优先 搜索 (depth-first search) ,262 

生成 森林 (spanning forest) ,261 

事件 节点 图 (event-node graph) ,251 

路 点 {sink),255,277 


收费 公路 重建 问题 {turnpike reconstruction problem), 


319 
普 次 适合 递减 算法 (first fit decreasing) ,290 
首次 适合 非 增 算法 (first fit nonincreasing) ,291 
首次 适合 算法 (Jirst fit) ,289 
枢纽 元 (pivot) , 196,298 
树 (tree) ,77 
树 的 同 构 (isornorphism) ,121 


树叶 (leaf) ,77 

双 端 队列 {deque) , 76 

双 端 优先 队列 (double ended priority queue) , 181 

双 连 通 分 支 (biconnected components) ,276 

双 连 通 (biconnected) ,263 

双 链 表 (doubly linked lists) ,46 

WBF (double hashing) ,138 

WHE FE ( double rotation) ,94 

Ji FA (run) ,208 

四 边 形 不 等 式 (quadrangle inequality) , 330 

四 分 树 (quad tree) ,391 

Fi Hh AF [8] (slack time) , 252 

松 堆 (relaxed heap) , 181 

素数 (prime number) ,5 

素性 测试 (primality testing) ,317 

FL (algorithm) ,22 

随机 化 算法 (randomized algorithm) ,311 

随机 数 (random number) ,312 

随机 数 生 成 器 (random number generator) , 39 

随机 置换 (random permutation) , 39 

孙子 (grandchild) ,78 

缩减 增 量 排序 (diminishing increment sort) ,185 

所 有 点 对 最 短路 径 (all-pairs shortest path) ,309 

AIER (greedy algorithm) ,246 ,282 

摊 还 时 间 界 (amortized time bound) , 339 

挫 还 运行 时 间 (amortized running time) ,101 

探测 散 列表 (probing hash table) ,132 

替换 选择 (replacement selection) ,210 

调和 和 (harmonic sum) ,4 

调和 数 (harmonic number) ,4 

PERK 2 (skip list) ,315 

停机 问题 (halting problem) ,270 

通过 反例 证 明 (proof by counterexample) , 5 

通配符 (wildcard) ,14 

同 度 的 (homometric) ,331 

[l (congruent) ,4 

桶 式 排序 (bucket sort) ,207 

头 节 点 (header node) ,58 

ME (convex hull) ,332 

凸 多 边 形 (convex polygon) ,332 

PA (graph) ,237 

PA 8453 XE BE AR 2: ( adjucency matrix representation) , 
238 ; 

图 的 着 色 (graph coloring) ,273 

图 灵机 {Turing machine) , 273 

途中 策略 (middle of-the-road strategy) , 140 

团 的 问题 (clique problem) ,273 

脱 机 装 箱 问 题 (off-tine bin packing problem) ,288 
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脱 机 算法 (off-line algorithm) ,220 

拓扑 编号 (topological numbering) ,240 

拓扑 排序 (lopological sort) ,239 

外 部 类 (outer class) ,56 

外 部 排序 算法 (external sorting algorithms) ,207 

完全 M X Bi (complete M-ary tree), 108 

56 4* — 3L BI (complete binary tree), 108,151 

完全 图 (complet graph) , 237 

HRE PLEX ( pseudorandom number) ,312 

Æ$ H lail recursion) , 69 

尾 节点 (tail node) ,58 

位 势 (potential),339 

文件 服务 器 (file server) ,72 

文件 压缩 (file compression) , 284 

稳定 的 排序 算法 人 (stable sorting algorithm) ,214 

KAR (acyclic graph) ,237 

FOAL BS 4 1K (unweighted path length) ,241 

无 向 图 (undirected graph) ,237 

五 数 中 值 取 中 分 割 法 (median-of-median-of-five 
partitioning) , 298 

希 尔 排序 (Shellsort), 185 

希 尔 增 量 (Shell" s increment) ,186 

Wait Al (sparse graph) , 238 

FT # (lower bound) ,23 

F iE (percolate down), 155 

下 项 适合 算法 (next fit) 288 

先 序 编号 (preorder numbering) ,263 

先 序 遍历 (preorder traversal) ,79,83 ,107 

线索 (thread) ,122 

线索 树 (threaded tree) ,122 

线性 图 数 (jinear function) ,24 

线性 探测 (Jinear probing) ,132 

线性 同 余 发 生 器 (linear congruential generator) ,312 

相对 增长 率 (relative rates of growth) ,22 

相似 二 叉 树 (similar binary trees) ,121 

协 变数 组 类 型 (covariant array type) ,11 

EHE (skew heap) ,168 ,343 

信息 理论 的 下 界 (information-theoretic lower bound), 
206 

兄弟 {sibling),78 

REFE (rotation) ,93 

选择 排序 (selection sort), 185 

选择 问题 (selection problem) ,1,159,203 ,297 

巡回 售货员 和 问题 (traveling salesman problem) ,272 

循环 链表 (circular linked list) ,76 

循环 数组 {circular array) ,71 

WENG B (dummy run) ,210 

WE — XX ( subquadratic) , 185 


亚 二 次 时 间 (subquadratic time) , 300 

亚 三 次 时 间 (subcubic time) ,300 

一 次 聚集 (primary clustering) , 132 

一 自 减 运 算 符 (unary minus operator) ,82 

一 维 装 圆 问题 (one-dimensional circle packing problem) , 
331 | 

一 字形 情形 (zig-xig case) , 102 

优先 查找 树 (priority search tree) ,392 

优先 队列 (priority queue) , 150 

有 偏 删除 算法 (biased deletion algorithm) ,123 

有 向 图 (digraph) ,237 

# HEEE (DAG) (directed acyclic graph) ,237 

JE XX B) FX Crank of an elemeni),91 

原始 类 (raw class) , 16 

运行 时 间 (running time) 24 

运行 时 异常 (runtime exception) ,13 

再 散 列 (rehashing) ,140 ,354 

增长 通路 (augmenting path) ,255 

S# BL FFF] (increment sequence) ,185 

增强 的 for 循环 (enhanced for lop), 13 

RE IF (splay) 102,356 

FR (stack) ,64 

栈 ADT(stack ADT),64 

栈 的 链表 实现 (linked list implementation of stacks) ,64 

栈 的 数组 实现 (array implementation of stacks) ,64 

TET (t0p),64 

Bi stack frame) ,69 

折 半 查找 (binary search) , 33 

HIS M (proper descendent) , 78 

真 祖先 (proper ancestor) ,78 

正 交 范围 查询 (orthogonal range query) , 382 

之 字形 情形 (zig-zag case) , 10. 

{fi (cost) ,237 

指数 (exponents) ,2 

秩 (rank) ,91,172,174,227,347,351 

EH X (transposition table) ,326 

中 位 数 (median) , 160 

HH | jit B3 (inorder traversal) ,83 ,106 

中 缀 表达 式 (infix expression) ,67,83 

终端 位 置 (terminal position) ,323 

中 值 Cmedian) ,197 

种 子 (seed) ,312 

t 35 S (heavy node) ,344 

JLX (majority element) ,41 

装填 因子 (load factor) , 131 

装 箱 问 题 (bin packing) ,273 

FÆ (subclass), 10 

字 型 匹配 问题 (patlern matching problem) ,333 
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自 底 向 上 插入 (bottom-up insertion) , 362 

自 调整 (self adjusting) ,92 

自 调整 表 (self-adjusting list) ,76 

自 调整 形式 {form of self-adjustment) ,233 
Á Mie FERH (top-down red-black tree) ,363 
自 顶 向 下 删除 (top-down deletion) , 367 

自 项 向 下 伸展 树 (top-down splay tree) ,356 
自动 拆 箱 (autounboxing) ,13 

自动 装 箱 (autoboxing) , 13 

自 反 的 (reflexive),219 

自 组 织 结构 {self-organizing structure) , 373 
祖父 (grandparent) ,78 

祖先 (ancestor) ,78 


最 长 递增 子 序列 问题 (Jongest increasing subsequence 


problem) ,333 


最 长 公共 子 序列 问题 (longest common subsequence 


problem) ,333 


壳 jl 


最 长 简单 路 径 问 题 (longest-simple-path problem) , 270 

最 大 流 问题 (maximum flow problem) ,255 

最 大 生成 树 {maximun spanning tree) ,275 

最 大 子 序列 和 问题 (maximum subsequence sum problem) , 
25 

最 佳 适 合 递减 算法 (best fit decreasing) ,290 

最 佳 适 合算 法 (best fit) ,290 

最 近 点 问题 (closest points problem) ,295 

最 小 堆 ((min)heap) , 155 

最 小 生成 树 (minimum spanning tree) ,258 

最 小 值 流 问题 (min-cost flow problem) ,259 

最 小 最 大 堆 (min-max heap) ,178 

HLS K B FAS (optimal Huffman coding tree) ,286 

Fe CHE (leftist heap) , 162 

Fc FR HEH (leftist heap property) , 162 

FESR (left tree), 166 
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